语音通信中语音端点检测技术的研究

摘 要 在语音的编码、语音的合成、语音的分析以及语音的分辨与识别中,语音信号的端点检测技术是一个非常的重要步骤,占有着十分重要的地位,直接影响着系统的整体的性能。语音端点检测通常是指在有噪声或其他干扰的环境下分辨出信号流中的语音信号和非语音信号,并确定语音信号起始点和终止点,为之后的信号处理做出了重要的准备。但在实际应用中,由于噪声的引入、环境的改变甚至是语音自身的性质都会导致端点检测的结果不准确,系统的识别性能也不能得到保证。 由于在现实的巨大复杂环境中存在各种噪声,这就使语音信号的检测的效果大打折扣,因此,在低信噪比条件下的语音端点检测技术研究非常有意义。成功的端点检测不仅可以提高数据的存储效率,而且能有效降低无声段的噪声干扰。语音端点检测技术的发展可以够增强系统辨别语音信号的精度,并且能提高传输系统效率,改良并提高语音的品质。 本文介绍了语音端点检测的研究背景,语音的基本特征和语音端点检测的基本方法。且通过研究后,运用Matlab7.0基于短时能量、短时过零率、短时平均幅度的端点检测算法进行实验结果的分析、对比、总结,并在提出创新的内容。
目 录
摘要 I
ABSTRACT II
目 录 III
绪论 1
1.1 语音信号处理的研究背景 1
1.2 语音识别及端点检测发展简介 2
1.3 课题研究目的和意义 4
1.4 主要研究内容 5
语音信号处理的基础 6
2.1 语音信号处理的基本方法 6
2.2 语音信号的数字化 6
2.3 语音信号的预处理 7
2.4 语音信号分析 8
2.5 语音信号处理的基本工具 8
语音端点检测的基本原理 9
3.1语音端点检测的模型 9
3.2基于短时平均能量的端点检测 9
3.3基于短时过零率的端点检测 11
3.4基于短时平均幅度的端点检测 12
语音端点检测的实验以及结果分析 14
4.1语音的录制 14
4. 2基于短时能量的端点检测实验 15
 *好棒文|www.hbsrm.com +Q: ^3^5`1^9`1^6^0`7^2# 

4.3 基于短时过零率的端点检测实验 16
4.4基于短时平均幅度的端点检测实验 17
4.5 实验结论 18
语音信号端点检测创新算法的研究 19
5.1 基于短时能量和短时过零率提出的端点检测算法 19
5.1.1 算法原理 19
5.1.2 实验结果 21
5.2 基于短时自相关函数提出的端点检测算法 21
5.2.1 算法原理 21
5.2.2 实验结果 23
总结和展望 24
6.1 总结 24
6.2 展望 25
致谢 27
参考文献 28
附录1 MATLAB程序代码 29
附录2 英文论文 42
附录3 英文论文翻译 47
绪论
1.1 语音信号处理的研究背景
几千年来,人类借助语言进行沟通与交流,并且利用语言留存了留下了一大笔历史财富。可以说,人类的发展一定离不开人与人之间的语言交流。随着科技与时俱进的飞速发展,人类社会变得越来越高度信息化和电子化,科幻电影里的世界正在逐渐变为现实。就像电影里的主人公可以和机器人交流思想一样,那么问题来了,所有的前提就是机器要能够听懂人说的话,这就涉及到语音识别、语音编码、语音合成等一系列需要解决的问题。在地球上,每一秒中都有大量的人与人之间且人与机器间的信息交换。正如控制论创始人维纳在1950年曾说道:“通常,我们把语言仅仅看作是人与人之间的通信手段,但是,要使人向机器,机器向人以及机器向机器讲话,那是完全办得到的。”而现在我们可以自信的向前人说:我们是100%的可以做得到的。现在语言在人类社会中是一种必不可少的交流工具。它就是人与人之间,人与机器之间沟通的重要的桥梁!
语音标准解释为发出语言的声音,是语言符号系统的重要承载工具。人与人之间的语言通信:包括语音压缩与编码。语音增强等。它是人类最大众化、最能够自然表达的强大的载体,并且极有可能在不久的未来成为人与机器之间相互交流,相互沟通的主要方式。现在我们已进入了信息化时代,伴随着当代计算机技术和现代科学的迅猛发展,人们能更加便捷地产生、传输、存储和获取各种不同的信息,这极大的便捷了人与人之间的信息交流,这将使社会各种行业的发展更加快速。
同时,语音信号处理这项研究的重要的目的是研究如何利用数字信号处理技术对语音信号进行数字化处理。数字信号处理、信号与系统、语音学、语言学、生理学及认知科学等学科都是语音信号处理这门学科的基础,它是慢慢逐渐发展起来的混合型技术,同时它也涉及模式识别和人工智能等许多学科领域。语音信号处理的研究包含了全世界部分最顶尖的研究方向,这些研究将会给整个产业带来翻天覆地的变化,将会给信息技术带来一场巨大的、彻底的革命,这也是它为什么是目前发展最为迅速的信息科学技术之一的一部分原因。它将带领未来科技飞跃式发展。
1.2 语音识别及端点检测发展简介
21世纪初期,语音识别技术是信息技术领域中影响力最大的一门科学之一。它是一门极具有融合性的,包含很多理论的学科。人们可以把语音识别技术与其他高科技的技术相结合最终达成说出你的指令让机器完成任务,机器完成任务可以用语言来向你回复。
科技的进步日新月异,计算机也越来越向便携化与智能化方向发展,这也是现代社会人们的一种需求,不管身处何种环境,人们都非常需要计算机的帮助,如今计算机更是与手机相结合,移动智能机平台已是一种流行趋势,人们急切地想要摆脱键盘的束缚,那么取而代之的必然是以语音输入这样便于使用的、自然的,人性化的输入方式,我们从近几年流行的“siri”就是个例子[1]。
当然,让计算机以及机器能听懂以及理解人们所讲的话,这一直都是人们创造计算机时最初的梦想,至今也没有改变过。尤其是汉语,要首先将它转化为二进制代码,因此,利用汉语语音进行人机交互是一个极其重要的研究课题[1]。语音信号中的端点检测是语音分析、语音合成、语音编码、说话人识别中的一个重要环节。“语音端点检测(VAD),又被称之为有声或无声检测、语音终止点检测、语音边界检测等。在一些语音识别或低速语音编解码器应用中,进行端点检测后的对于已经判别为语音段的部分,还有需要进一步判断清音和浊音的任务[2]。”
语音信号是时变非平稳信号,但一般将其视为短时平稳信号进行处理,它的特征主要依赖于时间参数[3]。不可避免在噪声环境的作用下,在识别时语音系统无法正确判断并识别出有效输入语音的起始以及终止点,从而就很容易发生起点和终点的虚检或漏检情况,甚至检测不出噪音。相关人员研究发现,在语音识别中即使在保证是在背景声音干净的环境下进行识别工作,也会产生由语音信号端点检测不准确所造成的错误。因此,我们可以这样说,端点检测的准确性直接对整个语音识别系统的成功或失败起到了决定性作用。所以,从背景噪声中正确地检测出语音信号是语音识别系统中必不可少的预处理过程。
语音识别的研究是从二十世纪四十年代初开始的,大约从20世纪50年代初期,Dudley的声码器(Vocoder)和Potter等人的所研究的课件语音(Visible Speech)都慢慢开始成形[4]。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/1101.html

好棒文