智能语音识别引擎构成原理

智能语音识别引擎主要由语音检测、特征提取、识别搜索几个模块组成，利用声学模型、字典/词典、识别语法等识别引擎资源，识别引擎将原始输入的语音流进行识别得到识别结果。主要识别原理如下：

1、语音检测

引擎采集的原始云数据被送入语音检测模块，该模块进行语音信号的预处理和检测, 将原始语音信号数据转换成标准数据格式，并通过高效的语音信号检测算法，检测到语音的起始点和终止点。

2、特征提取

检测后的语音数据流被送入特征提取模块，提取得到语音信号的特征矢量流。语音特征是利用数字信号处理技术，从语音信号中提取最反应其本质属性的信息。在这个模块中，需要对语音信号进行预加重、分帧、加窗、频域变换、倒谱变换、差分等处理，最终得到40维左右的特征矢量。

3、识别搜索

语音特征矢量被送入识别搜索模块。在这个模块中，未知语音信号的特征与引擎内含的声学模型库、字典/词典和识别语法信息进行匹配，得到最适合未知语音特征的词序列。这个模块是识别引擎的核心。

低功耗：功耗不超过0.85mA，可以全天候低功耗持续监听。

资源占用少：ROM不超过45KB，RAM消耗小于40KB。

唤醒性能好：唤醒率超过90%，虚警低于1次/6小时。

支持更换唤醒词：用户可以根据需要进行唤醒词定制。

支持远距离唤醒：用户不需要手持或佩戴传声器，且用户说话时姿态自由，不需要靠近传声器。

想了解更多关于智能语音识别引擎的相关信息，可访问http://www.youlanai.com或关注“幽澜智能AI”微信公众号，可直接进行智能机器人的服务体验。