智能对话系统主要组件介绍
语音识别:ASR(Automatic Speech Recognition)一般包括四大块:信号处理、声学模型、解码器、后处理,首先采集声音,进行信号处理,将语音信号转化到频域,从N毫秒的语音提出特征向量,提供给声学模型,声学模型负责把音频分类成不同的音素,接着解码器得出概率最高一串词串,最后的后处理就是把单词组合成容易读取的文本。简单的说,就是接受音频输入,返回一个转录的词串;当然,对话系统中,ASR系统一般都做了定制的优化,同时,一般对话系统还要求ASR系统返回句子的置信度,用来决定是否询问用户来确认该回答这样的任务;
自然语言理解:NLU(Natural Language Understanding)产生适合对话任务的语义表示(语义表示常见有一阶逻辑、语义网络、概念依存、基于框架的表示),主要通过分词、词性标注、命名实体识别、句法分析、指代消解等进行语义解析产生句子意义(即理解文本是什么意思),进行意图识别(一般通过动宾短语,事件提及,比如查询天气),从中抽取槽的填充值,进而完成语义表示;
自然语言生成与语音合成:NLG(Natural Language Generation)组件选择需要向用户表达的概念,计划如何用词句表达这些概念,并赋予这些词必要的韵律,TTS(Text To Speech)组件接受这些词句及其韵律注解,并合成波形图,生成语音;
对话管理器:DM(Dialog Management)为对话系统的主体,控制着对话的架构和结构,从ASR/NLU组件接受输入,维护一些状态,与任务管理器(知识库)交互,并将输出传递给NLG/TTS模块。
想了解更多关于人工智能或智能客服系统信息,可访问http://www.youlanai.com或关注“幽澜智能AI”微信公众号,可直接进行智能机器人的服务体验。