当前位置：首页 > 机器人知识 > 机器人非特定人语音识别流程:幅度检测，过零率检测和预测系统检测

机器人非特定人语音识别流程:幅度检测，过零率检测和预测系统检测

来源：神奇的机器人时间：2025/12/31

特定人的语音识别系统指识别字、短语、句子，而不管说话人是谁。目前已经能够识别4000个甚至更多个单词及由它们所组成的简单句子。

由于上述识别系统都是针对非特定人的，所以它与特定人的语音识别系统相比，一般性要求较高。语言识别系统可以懂得话音的含义。这种系统先要把话音分割成单词(或音素),然后进行语法分析，Z后辨识出话音的含义，可见这种系统是相当复杂的。在小词汇量语音识别方面，用得Z多的是模式匹配方法，实用的系统已经出现；基于统计模型的隐 Markov 模型，则在大词汇量的语音识别上取得了很大的进展，但目前尚在研究发展之中，可靠性有待进一步提高。实现非特定人语音识别的流程如图4-19所示。相比之下，数字音识别系统比较简单。这种语音识别系统的工作原理与特定人的语音识别系统有很多相同之处，这里只介绍连续数字音识别系统。

除此之外，还要发现很多语言中的规律，在这些规律中，重要的有：

①字的起点可能发生在如下处：“静”和“无振”时间段的衔接处，幅度随时间陡升处，过零率随时间陡升处；“有振”、“无振”时间段衔接处和幅度与时间关系曲线的凹陷处。

②字的终点可能发生在如下处：“有振”和“静”的时间段衔接处；“无振”和“静”的时间段衔接处及幅度随时间陡降处。

③在“无振”和“有振”的衔接处。如果同时出现幅度随时间陡升和过零率随时间陡降，那么这里不是字的起、终点的分界。

接下来，把各个短时间段的各个特征按照上面的分割方法划分成三个组(即将每个字的字音分成一个组),分别送进“音的识别”部分去作每个字的识别。然而，在“音的识别”部分中，事先存储有十个数目字话音(0~9),在每个短时间段的判别量设为：g₁(x₁,x₂,x₃)、82(x,x₂,x₃)、g₃(x₁,x₂,x₃), 其中 x₁代表幅度，x₂ 代表过零率，x₃ 代表线性预测系数等。当得到待识别的数目字话音的各个特征时，把它们与事先存储的判别量进行比较，找出Z接近的字作为判别结果。

和特定人的语音识别系统一样，在作比较之前也要经过“时间对应步骤”,把待识别字的各个短时间段在一定范围内作些调整，使调整后的短时间段数目和存储在“音的识别”部分的字的短时段数目一样，再把调整后的短时间段的特征代入判别函数里。在这种模板匹配法的语音识别系统中，标准模板是否具有代表性，直接影响识别的精度。即使是同一个人说同一个单词，其发音也会有差异，这就是发音的离散性。这种离散性造成了产生标准模板的困难。假设这种离散性使语音特征分布在一个区域里面而不是集中在一个点，那么我们应当找出这个区域中心点并将其作为标准特征值，这个过程称为语音识别中的样本优化。

还应当指出，在正确提取语音特征的前提下，如何减少计算量是一个重要问题，它关系到语音识别系统的复杂程度、成本和实时性。听觉系统除了用于识别人的声音之外，还可以在工作现场利用传声器捕捉音响来证实一个工序的开始与结束、检测异常声音等。利用超声波的听觉系统还可以测量对象物的位置和尺寸。超声波听觉系统在测量、检测等方面有广泛的应用。

分类导航

== 资讯 ==

» 分布式机器人体系结构DIRA-利于
» ALLIANCE机器人系统-用于不
» Nerd Herd机器人系统-避障
» 多机器人系统的体系结构：集中式、
» 2026年全球前15名人形机器人-
» 基于具身大模型的多场景智能巡检机器
» 中国具身智能市场规模预测分析
» 中国具身智能市场趋势量化预测：出货
» 中国具身智能区域产业集群:三大核心
» 2026年中国具身智能行业深度分析
» 2026年中国未来产业深度分析报告
» 2026年全球及中国人形机器人关节
» 基于世界模型的具身智能技术体系探索
» 世界模型赋能具身智能的框架设计:四
» 具身智能系统的“大脑”里都有什么？