当前位置：首页 > 机器人开发 > 机器人语音识别主要模式:频谱图法,LPC法,隐藏式马可

机器人语音识别主要模式:频谱图法,LPC法,隐藏式马可

来源：神奇的机器人时间：2025/12/29

人的发声器官可以分为两个部分，即声道和声带。如果直接让机器人理解我们说的话，难度比较大，将人类语言转化为机器人可以理解识别的信号，就是一个很好的途径。如果将整个过程看为一个信号过程的话，声带是发生源，声道相当于一个谐振时的声带振动，可用一个脉冲串发生器代替。发一些有声带振动的音时，可用一个脉冲串发生器代替。发一些无振音的时候，因为声带并不振动，而是从喉管发出的，只是一般的随机气流，可以用一个噪声发生器代替。上文介绍过，声音的强弱是变化的，用一个增益因子K 来表示的话

通过上面的办法，我们可以把语音信号转化为机器人能够理解的电信号，那么机器人又要怎样去理解呢?

由于人类的语言非常复杂，无论哪个民族，其词汇量都非常大，即使是同一个人，他的发音也随着环境及身体情况的变化而变化。目前在大词汇语音识别方面处于L先地位的IBM 语音研究小组，就是在70年代开始了大词汇语音识别研究工作的。AT&A 的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年，其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。

关于语音识别，表4-1介绍了三种主要模式。

频谱图法

将语音信号的频谱沿着时间轴加以展开，制成频谱图。此法是取语音信号的频率特性作为比较基础。此种方法识别精度一般，适用于对少量语音的识别，及对特定人说话的场合

LPC法

即线性预估编码法，此法是对语音信号抽取LPC系数，然后与参考样板的LPC系数加以比较，计算出其间的“差距”。LPC法是模拟人的发音器官构造而设计的。因此，LPC系数就代表发音器官腔调的不同状态。此法也用于特定人的语音识别

隐藏式马可夫模式

此法可用于非特定人的语音识别。即要识别不同人的发音，并且对同一个人发同一个音，每次发音也未必一致。这需要有大量的“储存”与“比较”。此法是采用“统筹”的理论，建立语音的状态转移模式。经大量的语音资料得出模式的“概率”,选出“相似率”Z高者

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。在声学模型方面，我们介绍一下 HMM 声学模型。

HMM 声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM 是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM 刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态(或当前的状态转移)有关，这两个假设大大降低了模型的复杂度。HMM 的打分、解码和训练相应的算法是前向算法、 Viterbi算法和前向后向算法。

总的来说，语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，其技术流程图如图4-17所示。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按照一键通客服人员口述要求即可设置目的地直接导航，安全、便捷。语音识别技术正朝着能识别任意人发音的方向发展。

分类导航

== 资讯 ==

» 讲解机器人部分案例
» WAIC 2026：人形机器人的场
» 2025年手术机器人白皮书：价值与
» 创泽展厅机器人部署的原则
» 城市地面服务机器人空间治理白皮书2
» 巡检机器人部分案例
» 2026中国具身智能行业洞察报告-
» 2026年中国具身智能产业发展与头
» 2026年具身智能科技前瞻探索：V
» 2026年具身智能产业发展研究报告
» 创泽机器人底盘，水滴底盘打造讲解机
» 2026年人工智能七大趋势:模型部
» 2026人工智能发展白皮书：七大趋
» 具身智能服务机器人的技术端破局短期
» 具身智能服务机器人的产业端核心挑战