孤立词语音识别技术研究
孤立词语音识别技术研究[20200406110634]
摘 要
近年来,语音识别是一项非常活跃的研究,由于研究技术的深入,已广泛应用于这些实际中,孤立词占着重要的地位。孤立词语音识别技术一般用于自控方面,比如机器人控制、设备控制、收集拨号、智能玩具、家电控制,特别是在人工已经被占用或者不可用时,而声音控制必须要进行,更是不可替代。本文是基于HMM(Hidden Markov Model)孤立词语音识别系统研究。
隐马尔可夫模型中比较成功的算法是语音识别。关键是它有时间序列建模功能强大的结构。本文深入浅出地介绍了关于研究基于隐马尔可夫模型的孤立词语音识别系统的方法。
*查看完整论文请 +Q: 3 5 1 9 1 6 0 7 2
关键字:的搜查是面向连续语音的,可是它不能确认所有的文字,只能查已知的某些地方出现的关键的字词,比如在一句子中查的“计算机”“世界”这些。
目录
第一章 绪论 1
1.1 研究的目的和意义 1
1.2 语音识别的发展与研究现状 1
1.3 语音识别系统的简述 2
1.4 本文研究的主要内容与结构安排 3
第二章 语音技术基本原理 4
2.1 语音识别的基本原理 4
2.2 语音信号的预处理 6
2.2.1 抗混叠滤波与预加重 6
2.2.2 端点检测 6
2.3 语音信号特征参数提取 7
2.3.1 线性预测系数(LPC) 7
2.3.2 LPC倒谱系数(LPCC) 7
2.3.3 Mel频率倒谱系数(MFCC) 7
2.3.4 过零峰值幅度(ZCPA) 8
2.4 语音模板匹配的方法 9
第三章 基于HMM的语音识别系统的研究与设计 10
3.1 隐马尔可夫模型 10
3.2 HMM模型的定义 11
3.3 HMM的三个基本问题 11
3.4 基于HMM的孤立词语音识别 12
3.4.1 基本思想 12
3.4.2 基本方法 12
3.4.3 孤立语音识别系统框图 12
第四章 实验仿真与结果分析 14
4.1 基于HMM的汉字数字语音识别系统设计 14
4.1.1 识别过程及参数选取 14
4.1.2 系统仿真界面设计 15
4.2 HMM算法实验结果及分析 16
第五章 总结 17
5.1 主要完成的工作 18
5.2 系统存在的问题 18
参考文献 19
致 谢 20
第一章 绪论
1.1 研究的目的和意义
语音识别是让机器经由辨别与认识过程后将语音信号变换为对应的文本或命令的方法。语音识别是一门综合的学科,钻研的是声音,在语音信号处理中的一个重要存在,其还是模式识别的一个分支,会和生理学科、心理学科、语言学科、计算机科学和信号处理等很多范畴有关系,乃至与人身体的语言也有关系,他们最后的目的是希望人和机器的语言联系。
在不一样类型的语音识别的用处上看,在文字输入的连续语音识别中,语言翻译,语音控制排版等具有广阔的应用前景;连续词识别系统主要是标识以数字组成的连续词,他们的典型应用是电话交换系统,电话银行信用卡帐户等;孤立词语音识别大多数用在自动控制系统,如驾驶,操作机械设备和收集拨号,智能玩具,操纵家用电器,当在只有声音可以控制的情况下,它更可以发挥不可替代的作用。
还没有找到好的解决办法,致使现如今非特定人、大量词汇、连续语音识别无法迎合应用功能的要求。
相反,特定人的连续词与孤立词的语音识别在理论与实践方面发展得很全面了,已经可以应用到一些对识别率没有非常严苛要求的地方,如拨号手机,声控家电与智能玩具。于是研究少许有限的词汇辨别系统对语音识别有很重要的意义。
1.2 语音识别的发展与研究现状
语音识别的探讨在二十世纪50年代渐渐展开。1952年AT&Tbell实验室戴维斯等,成功研究了世界上第一个认识10个字母数字语音测试系统:奥德里系统。
20世纪60年代语音识别技术由于计算机的使用而有了大的突破,作出两项重大发现:动态规划和线性预测分析,LP的语音信号的模型有更好的办法,对语音识别技术有了很深远的影响。20世纪70年代,语音识别的发展成为自古以来的一个重大转折点。线性预测的编码技术已成功地在语音识别方面得到使用;Sakoe与Chliba在语音识别中应用了动态规划,而且发现动态时间规整算法,使语音信号的特征提取与不等长语音匹配问题得到了理论和实践上的解释;同时提出了矢量量化(VQ)的语音识别的关键问题,这是非特定人大词汇量连续语音识别技术走向成功的一个重要里程碑。到了80年代,连续语音识别是语音识别的重点中的其中一个。迈尔斯与Rabiner开发了LB。80年代还有一个突破性的成果是概率统计,它主体现在HMM模型成功应用于语音识别。1988年,卡内基-梅隆大学基于VQ / HMM模型,完成了977字的非特定人连续语音识别的狮身人面像。在此期间,人工神经网络也成功应用于语音识别。到了90年代,由于多媒体时代的到来,语音识别由实验室搬到了生活应用中。
在20世纪50年代,我们国家中国的语音识别开始探讨,近几年来该研究日益拓展,从实验室渐渐用到日常生活中。从1987年开始,致力于语音识别技术研究。语音识别技术的研究成果已差不多可以和外国相比,汉语语音识别技术也有其自身的特别之处和上风,而且在世界上具有领先地位。
1.3语音识别系统的简述
按照发音的对象,语音识别可以划分为特定人与非特定人语音识别,特定人语音识别就是只能辨别一个或几个人的声音,但是另一个能让任何人使用。很明显,非特定人语音识别系统更加实用,但它比特定人识别要难很多。
语音识别系统中重要的内容有语音信号的采样、预处理、特征参数提取、识别核心及识别后处理。
最开始该过程要建立语音模式,该模式要以人的语音的特征为基础,接着理解剖析输入的语音信号,以获得所要的特征,并且在该基础上还要建立语音识别所需要的模式。在确认了按照语音识别模型,对输入信号的特征和语音模式相比完成,并按照一定的策略匹配搜索,以找出对输入信号的最佳范围的全过程相匹配的模式。然后通过在计算机上的查找表中定义的模式编号作为可给出的识别结果。
1.4 本文研究的主要内容与结构安排
语音识别技术能够帮助机器理解人类的语言,是实现机器智能化的核心技术之一。语音识别技术从诞生之日起就倍受关注,在过去的二十年时间里更是发展迅速,现已逐步走向成熟,而且在众多领域应用广泛。
按照发音方式的差别,语音识别的探讨大概为分孤立词识别、连续字识别和连续语音识别三大类。本课题关注的重点是孤立词识别,即处理的语音信号字与字之间具有明显的时间间隔。
这次我主要是在 Matlab平台上实现一个简单的基于HMM孤立词语音识别系统,并对其性能进行简单的评估和分析。
[1] 了解人类的发声过程和语音信号的声学特征;
[2] 学习并掌握HMM的基本原理以及该技术在语音信号处理中的应用;
[3] 在Matlab平台上实现基于HMM的孤立词语音识别系统,测试其性能;
[4] 整理汇总研究结果,完成本文。
第二章 语音技术基本原理
2.1 语音识别的基本原理
现在语音识别系统中,我们大都会用的原则是模式匹配。按此原理,我们可以用已知和未知的语音参考模型进行相比,并选择最相似的参考模式用来作为识别结果。
语音识别的步骤为按照识别的类型选取通过要求的一种识别方式,这种识别方法所要的语音特征参数是运用语音分析方法分析出来的,把该参数当作样板模式存储起来,组成标准模式库,这个语音参数库可称为“模板”,这一过程称为“学习”或“训练”。第二步就是识别。
按照模式匹配的原理组成的语音识别系统图如图1所示。
图1 语音识别原理框图
语音识别系统实际上是一种模式识别系统,所以其基本结构和通常的模式识别系统相同,包含的三个基本单元是①特征提取、②模式匹配、③参考模式库。但是因为由语音识别处理的信息构成一个很繁复的结构,这是非常丰富的人的语言信息,所以该系统结构比怕普通的模式识别要繁杂很多。下面对其说明如下。
摘 要
近年来,语音识别是一项非常活跃的研究,由于研究技术的深入,已广泛应用于这些实际中,孤立词占着重要的地位。孤立词语音识别技术一般用于自控方面,比如机器人控制、设备控制、收集拨号、智能玩具、家电控制,特别是在人工已经被占用或者不可用时,而声音控制必须要进行,更是不可替代。本文是基于HMM(Hidden Markov Model)孤立词语音识别系统研究。
隐马尔可夫模型中比较成功的算法是语音识别。关键是它有时间序列建模功能强大的结构。本文深入浅出地介绍了关于研究基于隐马尔可夫模型的孤立词语音识别系统的方法。
*查看完整论文请 +Q: 3 5 1 9 1 6 0 7 2
关键字:的搜查是面向连续语音的,可是它不能确认所有的文字,只能查已知的某些地方出现的关键的字词,比如在一句子中查的“计算机”“世界”这些。
目录
第一章 绪论 1
1.1 研究的目的和意义 1
1.2 语音识别的发展与研究现状 1
1.3 语音识别系统的简述 2
1.4 本文研究的主要内容与结构安排 3
第二章 语音技术基本原理 4
2.1 语音识别的基本原理 4
2.2 语音信号的预处理 6
2.2.1 抗混叠滤波与预加重 6
2.2.2 端点检测 6
2.3 语音信号特征参数提取 7
2.3.1 线性预测系数(LPC) 7
2.3.2 LPC倒谱系数(LPCC) 7
2.3.3 Mel频率倒谱系数(MFCC) 7
2.3.4 过零峰值幅度(ZCPA) 8
2.4 语音模板匹配的方法 9
第三章 基于HMM的语音识别系统的研究与设计 10
3.1 隐马尔可夫模型 10
3.2 HMM模型的定义 11
3.3 HMM的三个基本问题 11
3.4 基于HMM的孤立词语音识别 12
3.4.1 基本思想 12
3.4.2 基本方法 12
3.4.3 孤立语音识别系统框图 12
第四章 实验仿真与结果分析 14
4.1 基于HMM的汉字数字语音识别系统设计 14
4.1.1 识别过程及参数选取 14
4.1.2 系统仿真界面设计 15
4.2 HMM算法实验结果及分析 16
第五章 总结 17
5.1 主要完成的工作 18
5.2 系统存在的问题 18
参考文献 19
致 谢 20
第一章 绪论
1.1 研究的目的和意义
语音识别是让机器经由辨别与认识过程后将语音信号变换为对应的文本或命令的方法。语音识别是一门综合的学科,钻研的是声音,在语音信号处理中的一个重要存在,其还是模式识别的一个分支,会和生理学科、心理学科、语言学科、计算机科学和信号处理等很多范畴有关系,乃至与人身体的语言也有关系,他们最后的目的是希望人和机器的语言联系。
在不一样类型的语音识别的用处上看,在文字输入的连续语音识别中,语言翻译,语音控制排版等具有广阔的应用前景;连续词识别系统主要是标识以数字组成的连续词,他们的典型应用是电话交换系统,电话银行信用卡帐户等;孤立词语音识别大多数用在自动控制系统,如驾驶,操作机械设备和收集拨号,智能玩具,操纵家用电器,当在只有声音可以控制的情况下,它更可以发挥不可替代的作用。
还没有找到好的解决办法,致使现如今非特定人、大量词汇、连续语音识别无法迎合应用功能的要求。
相反,特定人的连续词与孤立词的语音识别在理论与实践方面发展得很全面了,已经可以应用到一些对识别率没有非常严苛要求的地方,如拨号手机,声控家电与智能玩具。于是研究少许有限的词汇辨别系统对语音识别有很重要的意义。
1.2 语音识别的发展与研究现状
语音识别的探讨在二十世纪50年代渐渐展开。1952年AT&Tbell实验室戴维斯等,成功研究了世界上第一个认识10个字母数字语音测试系统:奥德里系统。
20世纪60年代语音识别技术由于计算机的使用而有了大的突破,作出两项重大发现:动态规划和线性预测分析,LP的语音信号的模型有更好的办法,对语音识别技术有了很深远的影响。20世纪70年代,语音识别的发展成为自古以来的一个重大转折点。线性预测的编码技术已成功地在语音识别方面得到使用;Sakoe与Chliba在语音识别中应用了动态规划,而且发现动态时间规整算法,使语音信号的特征提取与不等长语音匹配问题得到了理论和实践上的解释;同时提出了矢量量化(VQ)的语音识别的关键问题,这是非特定人大词汇量连续语音识别技术走向成功的一个重要里程碑。到了80年代,连续语音识别是语音识别的重点中的其中一个。迈尔斯与Rabiner开发了LB。80年代还有一个突破性的成果是概率统计,它主体现在HMM模型成功应用于语音识别。1988年,卡内基-梅隆大学基于VQ / HMM模型,完成了977字的非特定人连续语音识别的狮身人面像。在此期间,人工神经网络也成功应用于语音识别。到了90年代,由于多媒体时代的到来,语音识别由实验室搬到了生活应用中。
在20世纪50年代,我们国家中国的语音识别开始探讨,近几年来该研究日益拓展,从实验室渐渐用到日常生活中。从1987年开始,致力于语音识别技术研究。语音识别技术的研究成果已差不多可以和外国相比,汉语语音识别技术也有其自身的特别之处和上风,而且在世界上具有领先地位。
1.3语音识别系统的简述
按照发音的对象,语音识别可以划分为特定人与非特定人语音识别,特定人语音识别就是只能辨别一个或几个人的声音,但是另一个能让任何人使用。很明显,非特定人语音识别系统更加实用,但它比特定人识别要难很多。
语音识别系统中重要的内容有语音信号的采样、预处理、特征参数提取、识别核心及识别后处理。
最开始该过程要建立语音模式,该模式要以人的语音的特征为基础,接着理解剖析输入的语音信号,以获得所要的特征,并且在该基础上还要建立语音识别所需要的模式。在确认了按照语音识别模型,对输入信号的特征和语音模式相比完成,并按照一定的策略匹配搜索,以找出对输入信号的最佳范围的全过程相匹配的模式。然后通过在计算机上的查找表中定义的模式编号作为可给出的识别结果。
1.4 本文研究的主要内容与结构安排
语音识别技术能够帮助机器理解人类的语言,是实现机器智能化的核心技术之一。语音识别技术从诞生之日起就倍受关注,在过去的二十年时间里更是发展迅速,现已逐步走向成熟,而且在众多领域应用广泛。
按照发音方式的差别,语音识别的探讨大概为分孤立词识别、连续字识别和连续语音识别三大类。本课题关注的重点是孤立词识别,即处理的语音信号字与字之间具有明显的时间间隔。
这次我主要是在 Matlab平台上实现一个简单的基于HMM孤立词语音识别系统,并对其性能进行简单的评估和分析。
[1] 了解人类的发声过程和语音信号的声学特征;
[2] 学习并掌握HMM的基本原理以及该技术在语音信号处理中的应用;
[3] 在Matlab平台上实现基于HMM的孤立词语音识别系统,测试其性能;
[4] 整理汇总研究结果,完成本文。
第二章 语音技术基本原理
2.1 语音识别的基本原理
现在语音识别系统中,我们大都会用的原则是模式匹配。按此原理,我们可以用已知和未知的语音参考模型进行相比,并选择最相似的参考模式用来作为识别结果。
语音识别的步骤为按照识别的类型选取通过要求的一种识别方式,这种识别方法所要的语音特征参数是运用语音分析方法分析出来的,把该参数当作样板模式存储起来,组成标准模式库,这个语音参数库可称为“模板”,这一过程称为“学习”或“训练”。第二步就是识别。
按照模式匹配的原理组成的语音识别系统图如图1所示。
图1 语音识别原理框图
语音识别系统实际上是一种模式识别系统,所以其基本结构和通常的模式识别系统相同,包含的三个基本单元是①特征提取、②模式匹配、③参考模式库。但是因为由语音识别处理的信息构成一个很繁复的结构,这是非常丰富的人的语言信息,所以该系统结构比怕普通的模式识别要繁杂很多。下面对其说明如下。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/2319.html