特定人的语音识别系统指识别字、短语、句子,而不管说话人是谁。目 前已经能够识别4000个甚至更多个单词及由它们所组成的简单句子。
由于上述识别系统都是针对非特定人的,所以它与特定人的语音识别系统 相比,一般性要求较高。语言识别系统可以懂得话音的含义。这种系统先要把 话音分割成单词(或音素),然后进行语法分析,Z后辨识出话音的含义,可见 这种系统是相当复杂的。在小词汇量语音识别方面,用得Z多的是模式匹配方 法,实用的系统已经出现;基于统计模型的隐 Markov 模型,则在大词汇量的语 音识别上取得了很大的进展,但目前尚在研究发展之中,可靠性有待进一步提 高。实现非特定人语音识别的流程如图4-19所示。相比之下,数字音识别系统 比较简单。这种语音识别系统的工作原理与特定人的语音识别系统有很多相同之 处,这里只介绍连续数字音识别系统。
除此之外,还要发现很多语言中的规律,在这些规律中,重要的有:
①字的起点可能发生在如下处:“静”和“无振”时间段的衔接处,幅度 随时间陡升处,过零率随时间陡升处;“有振”、“无振”时间段衔接处和幅度 与时间关系曲线的凹陷处。
②字的终点可能发生在如下处:“有振”和“静”的时间段衔接处;“无 振”和“静”的时间段衔接处及幅度随时间陡降处。
③在“无振”和“有振”的衔接处。如果同时出现幅度随时间陡升和过零 率随时间陡降,那么这里不是字的起、终点的分界。
接下来,把各个短时间段的各个特征按照上面的分割方法划分成三个组(即 将每个字的字音分成一个组),分别送进“音的识别”部分去作每个字的识别。 然而,在“音的识别”部分中,事先存储有十个数目字话音(0~9),在每个短 时间段的判别量设为:g₁(x₁,x₂,x₃)、82(x,x₂,x₃)、g₃(x₁,x₂,x₃), 其 中 x₁代表幅度,x₂ 代表过零率,x₃ 代表线性预测系数等。当得到待识别的数目字 话音的各个特征时,把它们与事先存储的判别量进行比较,找出Z接近的字作为 判别结果。
和特定人的语音识别系统一样,在作比较之前也要经过“时间对应步 骤”,把待识别字的各个短时间段在一定范围内作些调整,使调整后的短时间段 数目和存储在“音的识别”部分的字的短时段数目一样,再把调整后的短时间段 的特征代入判别函数里。在这种模板匹配法的语音识别系统中,标准模板是否具 有代表性,直接影响识别的精度。即使是同一个人说同一个单词,其发音也会有 差异,这就是发音的离散性。这种离散性造成了产生标准模板的困难。假设这种 离散性使语音特征分布在一个区域里面而不是集中在一个点,那么我们应当找出 这个区域中心点并将其作为标准特征值,这个过程称为语音识别中的样本优化。
还应当指出,在正确提取语音特征的前提下,如何减少计算量是一个重要 问题,它关系到语音识别系统的复杂程度、成本和实时性。听觉系统除了用于识别人的声音之外,还可以在工作现场利用传声器捕捉音响来证实一个工序的开始 与结束、检测异常声音等。利用超声波的听觉系统还可以测量对象物的位置和尺 寸。超声波听觉系统在测量、检测等方面有广泛的应用。
![]() |
| 机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 具身智能教育机器人 智能配送机器人 导览机器人 |