语音识别的系统实现
语音识别系统选择识别基元的要求是定义准确,能得到足够的数据进行训练,具有通用性。英语通常使用上下文相关的音素建模,而汉语的同音没有英语那么严重,所以可以使用音节建模。系统所需的训练数据的大小与模型的复杂程度有关。模型的设计过于复杂,超出了所提供的训练数据的能力,会使性能急剧下降。
听写机:词汇量大、非特定、连续的语音识别系统通常称为听写机。其架构是基于前述声学模型和语言模型的HMM拓扑。在训练中,模型参数由每个基元的前向-后向算法获得。识别时,将基元串接成词,并在词与词之间加入无声模型,引入语言模型作为词与词之间的转移概率,形成循环结构,用维特比算法解码。鉴于中文容易切分,先切分再逐段解码是提高效率的简化方法。
对话系统:用来实现人机口语对话的系统称为对话系统。受限于目前的技术,对话系统往往是面向某个狭窄领域、词汇量有限的系统,其主题包括旅游查询、预订、数据库检索等。它的前端是语音识别器,对生成的N-best候选或单词候选网格进行识别,由解析器分析得到语义信息,再由对话管理器确定应答信息,由语音合成器输出。因为目前的系统往往词汇量有限,我们还可以通过提取关键词来获取语义信息。