人的发声器官可以分为两个部 分,即声道和声带。如果直接让机器人理解我们说的话,难度比较大,将人类语 言转化为机器人可以理解识别的信号,就是一个很好的途径。如果将整个过程看 为一个信号过程的话,声带是发生源,声道相当于一个谐振时的声带振动,可用 一个脉冲串发生器代替。发一些有声带振动的音时,可用一个脉冲串发生器代 替。发一些无振音的时候,因为声带并不振动,而是从喉管发出的,只是一般的 随机气流,可以用一个噪声发生器代替。上文介绍过,声音的强弱是变化的,用 一个增益因子K 来表示的话
通过上面的办法,我们可以把语音信号转化为机器人能够理解的电信号, 那么机器人又要怎样去理解呢?
由于人类的语言非常复杂,无论哪个民族,其词汇量都非常大,即使是同一个 人,他的发音也随着环境及身体情况的变化而变化。目前在大词汇语音识别方面处 于L先地位的IBM 语音研究小组,就是在70年代开始了大词汇语音识别研究工作 的 。AT&A 的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究 历经10年,其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。
关于语音识别,表4-1介绍了三种主要模式。
将语音信号的频谱沿着时间轴加以展开,制成频谱图。此法是取语音信号的频率 特性作为比较基础。此种方法识别精度一般,适用于对少量语音的识别,及对特定 人说话的场合
即线性预估编码法,此法是对语音信号抽取LPC系数,然后与参考样板的LPC系 数加以比较,计算出其间的“差距”。LPC法是模拟人的发音器官构造而设计的。因 此,LPC系数就代表发音器官腔调的不同状态。此法也用于特定人的语音识别
此法可用于非特定人的语音识别。即要识别不同人的发音,并且对同一个人发同一 个音,每次发音也未必一致。这需要有大量的“储存”与“比较”。此法是采用“统 筹”的理论,建立语音的状态转移模式。经大量的语音资料得出模式的“概率”,选 出“相似率”Z高者
语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于 语音到音节概率的计算和音节到字概率的计算。在声学模型方面,我们介绍一下 HMM 声学模型。
HMM 声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐 马尔可夫模型HMM 是指这一马尔可夫模型的内部状态外界不可见,外界只能看 到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声 学特征。用HMM 刻画语音信号需作出两个假设,一是内部状态的转移只与上一 状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设 大大降低了模型的复杂度。HMM 的打分、解码和训练相应的算法是前向算法、 Viterbi算法和前向后向算法。
总的来说,语音识别技术就是让机器通过识别和理解过程把语音信号转变 为相应的文本或命令的高技术,其技术流程图如图4-17所示。语音识别技术主 要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车 联网也得到了充分的引用,例如在翼卡车联网中,只需按照一键通客服人员口述 要求即可设置目的地直接导航,安全、便捷。语音识别技术正朝着能识别任意人 发音的方向发展。
![]() |
| 机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 具身智能教育机器人 智能配送机器人 导览机器人 |