摘要:语言是人类交流的重要工具,是人类获取信息的重要来源。衡量机器人智能化水平的一项重要技术依据就是看其是否可以进行人一机通讯。语音识别技术非常关键,它可以使人机交流更加通畅,因而发展非常迅速。它在不到60年的历史里,取得了巨大的发展。本文在理论结合实践的基础上,对基于隐马尔可夫模型的非特定人小词汇量连续语音识别进行研究,具体内容如下:
(1)通过基于隐马尔科夫模型的语音识别系统的基本结构,详细介绍了语音识别系统的基本原理,包括语音信号的预处理,端点检测,模板训练,模式匹配,语音应答等环节。提出了一些适合非特定人小词汇量连续语音识别的方法,并且分析他们的利弊。
(2)在语音识别方法的理论基础上,基于Matlab设计平台,设计出一套可用于触摸屏的具有良好人机界面的非特定人小词汇量连续语音识别系统,这个系统分别作出中文识别,英文识别两个版本。并且在其中介绍了识别系统的开发工具和语音合成工具,根据可视化的用户界面,说明了系统的具体功能,以及介绍了一些关键模块的编程方法。
(3)在本文所介绍的语音识别系统上,对本文识别算法进行验证,利用上述编写出的语音识别软件,对“君远学院在哪里”,“院长是谁”,“江南大学有多少个学院”等15句话以及他们的英文版进行语音识别的训练和测试。记录它们的识别率,训练时间等参数。
关键词:隐马尔科夫模型;语音识别;Matlab
目录
摘要
abstract
第1章 绪论-1
1.1前言-1
1.2语音识别的研究概况及发展趋势-1
1.2.1 语音识别的国内外研究概况-1
1.2.2 语音识别的算法模型概述-2
1.2.3 语音识别的发展趋势[8]-3
1.3课题的研究意义及研究内容-4
1.3.1 课题的研究意义-4
1.3.2 研究内容-4
1.4本文的内容结构-4
第2章 语音识别的原理-7
2.1 语音的声学基础-7
2.1.1 语音的产生-7
2.1.2 汉语语音基础-7
2.1.3 英语语语音基础-8
2.1.4 语音感觉机理-9
2.1.5 语音产生的数学模型[12,13,14]-9
2.2 语音识别的基本原理-10
2.3 语音识别的预处理-11
2.3.1 识别单元选取-11
2.3.2 语音识别的采样和量化-11
2.3.3 语音识别的预加重-12
2.3.3 语音识别的分帧加窗-13
2.3.4 语音识别的端点检测-13
2.4 语音识别特征参数的提取-17
2.5 语音识别模型-18
2.5.1 隐马尔科夫模型的定义-19
2.5.2 隐马尔科夫模型的类型-19
2.5.3 隐马尔科夫模型的基本算法-20
2.6 本章小结-21
第3章 语音识别方法的对比选取-23
3.1 概述-23
3.2 动态时间规整技术(DTW)-23
3.2.1 DTW模型建立-23
3.2.2 DTW的缺点-25
3.3 DTW模型和HMM模型的对比-25
3.4 以词,句为基元的识别率的对比-26
3.4 本章小结-29
第四章 语音识别系统在迎宾机器上的实现-31
4.1系统的基本功能-31
4.2 语音数据库的建立-32
4.3 连续语音识别系统的实现-33
4.3 语音识别关键模块的算法及实现-34
4.3.1 语音训练-34
4.3.2 MFCC参数提取-34
4.3.3 语音识别-35
4.3.4 语音回答-35
4.4 ActiveX控件-36
4.4.1 Matlab的ActiveX接口-36
4.4.2 在Matlab中播放flash和视频文件-37
4.4 实验设计及结果分析-38
4.4.1 端点检测算法的验证-38
4.4.2 整个系统的总试验-40
4.5 本章小结-40
第五章 总结与展望-41
5.1 论文总结-41
5.2 不足及以后工作-41
参考文献-42
致谢-43