语音通信系统中基音周期估计技术的研究

摘 要语音信号的基音周期是反映声源参数的重要基本特征之一,精确地估计语音信号的基音周期是高质量地进行语音分析合成、语音识别转换、语音压缩编码的前提,也是实现的难点。 本文运用理论与实践结合的方法,重点研究常用的基音周期估计方法,如:短时自相关函数法(ACF)、短时平均幅度差法(AMDF)、倒谱法,并对其进行比较分析,讨论其优势与不足之处。与之处本文详细讲述了各种基音周期股计算法理论,并在MATLAB环境下进行仿真,对现有的基音估计算法进行归纳与总结,并对其提出改进建议。摘 要 1
目 录
ABSTRACT 2
第1章 绪论 5
1.1 引言 5
1.2 基音周期的定义 6
1.3 影响基音周期检测的因素 6
1.4 基音周期检测的国内外研究现状 7
1.5 本文研究内容 9
第2章 基音周期估计常用方法原理 10
2.1 语音信号的预处理 10
2.1.1 语音信号的预加重 10
2.1.2 语音信号的加窗处理 12
2.2短时自相关(ACF)分析 13
2.2.1 自相关函数的定义 13
2.2.2 语音信号的短时自相关函数 14
2.2.3修正的短时自相关函数 18
2.3 短时平均幅度差分析 19
2.4 倒谱法(CEPSTRUM) 21
2.4.1 倒谱的定义 22
2.4.2 语音信号的倒谱分析 22
2.5 本章小结 26
第3章 基于MATLAB实现基音周期估计 27
3.1 语音信号处理的前期准备 27
3.2 语音信号预处理 28
3.2.1 语音信号的分块 29
3.3 基于MATLAB的自相关函数法(ACF)基音周期估计 29
3.3.1语音信号的削波 30
3.3.2 短时自相关法估计基音周期的MATLAB实现 34
3.4 基于MATLAB的平均幅度差法(AMDF)基音周期估计 36
3.5 基于MATLAB的倒谱法(CEPS
 *好棒文|www.hbsrm.com +Q: *351916072* 
TRUM)基音周期估计 40
3.6 小结 42
第4章 总结与展望 43
致 谢 45
参考文献 46
附录一 47
附录二 50
第1章 绪论
1.1 引言
语音是语言的声学表现,语言是人类交流信息最自然、最方便、最快捷的手段。在高度发达的信息社会中,用数字化现代手段研究语音处理技术,使人们能更加有效地传输、存储、识别、合成和增强语音信息,这对于促进信息化的发展具有非常重要的意义。
语音处理的研究目标多种多样,所涉及的学科门类也是丰富多彩的,语音和语言学、声学、心理学、认知科学、计算机、数理统计、信号处理、其中包括了语人工智能和模式识别等等,并且它始终与当前信息科学中最活跃的前沿学科,如神经网络理论、小波变换理论、模糊集理论、时频分布理论和混沌与分形理论等保持密切联系并共同发展着。语音处理研究者常常从这些领域的进展中找到突破口,使语音处理技术研究取得突破性的进展,其研究成果具有重要的学术及应用价值。语音信号处理主要包括语音识别、语音合成、语音压缩编码和语音增强等分支。
语音识别技术是指计算机系统能够根据输入的语音识别出其代表的具体意义,进而完成相应的功能。一般的方法是事先让用户朗读有一定数量文字、符号的文档,通过录音装置输入、存储到计算机,作为声音样本。以后,当用户通过语音识别系统操作计算机时,用户的声音通过转换装置进入计算机内部,语音识别技术便将用户输入的声音与事先存储好的声音样本进行对比。系统根据对比结果,输入一个它认为最“象”的声音样本序号,就可以知道用户刚才念的声音是什么意义,进而执行此命令。因此通过语音识别技术,计算机可以“听”`懂人类的语言。
语音合成是人机语声的一个重要组成部分,语音合成技术赋予机器“人工嘴巴”的功能,即解决让机器说话问题。是将计算机自己产生的或外部输入的文字信息,比如文本文件内容、文件内容等文字信息,按语音处理规则转换成语音信号输出,即使计算机流利地读出文字信息,使人们通过“听”就可以明白信息的内容。也就是说,使计算机具有了“说”的能力,能够将信息“读”给人类听。这种将文字转换成语音的技术称之为文语转换技术,简称技术,也称为语音合成技术。
基音周期是表征语音信号本质特征的参数,属于语音分析的范畴,只有准确分析并且提取出语音信号的特征参数,才能够利用这些参数进行高效的语音识别处理。语音识别率的高低,都依赖于对语音信号分析的准确性和精确性,因此基音周期的研究在语音信号的处理应用中具有十分重要的作用。[1]
1.2 基音周期的定义
人在发浊音时,空气流经过声带使得它产生张驰振动,即声带周期性的打开和闭合。当声带开启式,他会产生一股脉冲,当声带闭合时,这个时候就相当与处于脉冲之间的空隙。这一气流辐射出声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。形如上述的声带振动的频率称为基频,相应的周期就称为基音周期(Pitch),它由声带逐渐开启到面积最大(约占基音周期的50%)、逐渐关闭到完全闭合(约占基音周期的35%)、完全闭合(约占基音周期的15%)三部分组成 。
基音周期的估计称为基音检测 (Pitch Detection),基音检测的最终目标是画出和声带振动频率完全一致的基音周期变化轨迹曲线,如不可能则尽量找出相吻合的轨迹曲线。
在语音信号处理中,对语音信号的参数提取要求较高。只有在获得准确参数情况之下,才能利用这些参数进行高效的处理,在许多参数中基音周期这一反映语音信号特性的参数极其重要,广泛地应用于语音的分析合成、语音的压缩编码以及语音的识别等方面,所以,精确地估计语音信号的基音周期是高质量地进行语音分析合成、语音识别转换、语音压缩编码的前提,也是实现的难点。
1.3 影响基音周期检测的因素
由于声道的易变性及声道特征因人而异,而基音的范围又很宽,即使是同一个人在不同情绪下发音的基音周期也不同,更不用说不同的人即使是说同一句话也会有不同的基音周期。加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情,基音提取的主要困难反映在 :[2]
l)语音信号变化十分复杂,声门激励的波形并不是一个完全的周期序列。在语音的头尾部并不具有声带振动那样的周期性,对有些清浊音的过渡帧很难判定它属于周期性还是非周期性,从而对估计基音周期带来一定的影响。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/1100.html

好棒文