当前位置：首页 > 新闻资讯 > 机器人开发 > 机器人语音识别主要模式:频谱图法,LPC法,隐藏式马可

机器人语音识别主要模式:频谱图法,LPC法,隐藏式马可

来源：神奇的机器人编辑：创泽时间：2025/12/29 主题：其他 [加盟]

人的发声器官可以分为两个部分，即声道和声带。如果直接让机器人理解我们说的话，难度比较大，将人类语言转化为机器人可以理解识别的信号，就是一个很好的途径。如果将整个过程看为一个信号过程的话，声带是发生源，声道相当于一个谐振时的声带振动，可用一个脉冲串发生器代替。发一些有声带振动的音时，可用一个脉冲串发生器代替。发一些无振音的时候，因为声带并不振动，而是从喉管发出的，只是一般的随机气流，可以用一个噪声发生器代替。上文介绍过，声音的强弱是变化的，用一个增益因子K 来表示的话

通过上面的办法，我们可以把语音信号转化为机器人能够理解的电信号，那么机器人又要怎样去理解呢?

由于人类的语言非常复杂，无论哪个民族，其词汇量都非常大，即使是同一个人，他的发音也随着环境及身体情况的变化而变化。目前在大词汇语音识别方面处于L先地位的IBM 语音研究小组，就是在70年代开始了大词汇语音识别研究工作的。AT&A 的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年，其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。

关于语音识别，表4-1介绍了三种主要模式。

频谱图法

将语音信号的频谱沿着时间轴加以展开，制成频谱图。此法是取语音信号的频率特性作为比较基础。此种方法识别精度一般，适用于对少量语音的识别，及对特定人说话的场合

LPC法

即线性预估编码法，此法是对语音信号抽取LPC系数，然后与参考样板的LPC系数加以比较，计算出其间的“差距”。LPC法是模拟人的发音器官构造而设计的。因此，LPC系数就代表发音器官腔调的不同状态。此法也用于特定人的语音识别

隐藏式马可夫模式

此法可用于非特定人的语音识别。即要识别不同人的发音，并且对同一个人发同一个音，每次发音也未必一致。这需要有大量的“储存”与“比较”。此法是采用“统筹”的理论，建立语音的状态转移模式。经大量的语音资料得出模式的“概率”,选出“相似率”Z高者

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。在声学模型方面，我们介绍一下 HMM 声学模型。

HMM 声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM 是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM 刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态(或当前的状态转移)有关，这两个假设大大降低了模型的复杂度。HMM 的打分、解码和训练相应的算法是前向算法、 Viterbi算法和前向后向算法。

总的来说，语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，其技术流程图如图4-17所示。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按照一键通客服人员口述要求即可设置目的地直接导航，安全、便捷。语音识别技术正朝着能识别任意人发音的方向发展。

机器人语音识别主要模式:频谱图法,LPC法,隐藏式马可

频谱图法

LPC法

隐藏式马可夫模式

机器人图像处理的几种方法：点运算、图像增强、图像复原

机器人如何看到物体：由硬件图像采集和软件图像信息处理

机器人如何规划行走路线：全局规划方法，局部规划

机器人的视觉传感技术，从二维图像中理解和构造出三维世界的真实模型

机器人的工件识别传感器：接触识别、采样式测量、邻近探测、距离测量、机械视觉识别

机器人的柔性腕力传感器：检测末端执行器所受外力/力矩的大小和方向

机器人位姿传感器：6个电涡流传感器组成的特定空间结构

机器人轨迹规划的基本原理

机器人操作臂动力学方程系数的简化

WebSocket在实时对话中存在关键缺陷:数据包丢失或延迟,破坏对话流畅性

机器人互动如何做好上下文：短期记忆，固化和注入长期记忆：

机器人的动力学：拉格朗日法

服务机器人(迎宾、讲解、导诊...)

智能消毒机器人

机器人开发平台