基于MATLAB的语音增强算法的研究与实现

基于MATLAB的语音增强算法的研究与实现[20191215141829]
语音是人类交流过程中最自然、最有效、最便捷的信息载体。语音增强是指当语音信号被噪声干扰、淹没时,从噪声的背景中提取有用的语音信号,缓解、减少噪声干扰的技术, 其主要目的是从含噪信号中提取尽可能纯净的原始语音。
本文首先介绍了语音增强技术的基本知识,对语音增强的仿真工具作一个粗略的了解,描述了语音增强的四种方法:谱减法、小波域信号算法以及维纳滤波法。
谱减法是一种基于短时功率谱的语音增强的算法,利用语音信号短时平稳的特性,从含噪音语音估值中减去噪声频谱估值,从而得到较为纯净的语音频谱。小波域信号基于原始信号和噪声的小波系数在不同规格上具有不同性质的原理,在小波域采用各类数学方法对含噪信号的小波系数进行处理,尽量多地消除由噪声产生的小波系 数,同时尽可能地保留真实信号的小波系数,最后小波系数重构 原始信号。维纳滤波法利用最佳线性过滤与预测或线性最优估计设计一个数字滤波器,带噪语音信号通过此滤波器便得到语音信号的估计。
最后对本文所做的工作进行了总结,并指出了下一步要研究的方向。
摘要 Ⅰ
 查看完整论文请+Q: 351916072 
关键字:字语音增强、谱减法、短时功率谱、小波域信号分析、维纳滤波
目录
ABSTRACT Ⅱ
目录 Ⅲ
1.1 语音增强的目的和应用背景 1
1.2 语音增强的概述 2
1.3 本论文的主要结构 3
第二章 语音增强基本概念 4
2.1 概述 5
2.2 语音特性 5
2.2.1 语音生成模型 6
2.2.2 语音的时间波形和频谱特性 9
2.3 人耳的感知特性 11
2.4 噪声特性 12
2.5 语音增强的算法 13
2.6 计算机仿真工具——MATLAB 14
2.6.1 MATLAB 简介 14
2.6.2 基本应用 14
2.6.3 系统结构 14
2.6.4 MATLAB在数字语音信号处理中的应用 15
第三章 基于短时谱估计的语音增强算法 16
3.1 概述 16
3.2短时谱估计 16
3.3 谱减法 17
3.4 谱减法的仿真 19
3.4.1 仿真流程图 19
3.4.2 实验仿真主要模块以及代码 21
3.4.3 实验仿真以及结论 21
第四章 基于小波分析技术的语音增强方法 24
4.1 概述 24
4.2 小波的基本概念 24
4.3 多分辨率分析原理 26
4.4 基于小波分析技术的语音增强算法 27
4.4.1 小波信号增强原理 27
4.4.3 实验仿真及结论 30
第五章 基于维纳滤波的语音增强算法 33
5.1 概述 33
5.2 维纳滤波算法 33
5.3 维纳滤波的仿真 36
5.3.1 仿真模块以及代码 36
5.3.2 实验仿真及结论 36
总结与展望 39
参考文献 41
致谢 44
第一章 绪论
1.1 语音增强的目的和应用背景
人们在相互交流的进程中会受到来自四周环境和传输媒介的噪声或者通信工具本体内部的电噪声,以及其它交谈者的干扰。这些干扰会使接收方收到的语音信号不再是纯净的初始语音信号,而是已受到噪声污染的含噪信号。例如安装在轿车、轮船或高铁上的电话,街道、车站上的公共电话,经常受到强烈的背景噪声干扰,严重影响通话质量;年代久远的旧唱片、老旧磁带的噪声和失真;在军事通信中,指挥官的命令和战斗员的战情汇报都要用语音来表达,由于战斗中的环境恶劣,比如炸弹爆炸产生的噪声,使有用信号完全淹没在噪声中;窃听技术等[1]。这些环境下都需要通过语音增强来获取清晰的语音信号。由于环境噪声的污染,会使许多语音处理能力急剧衰弱。语音识别已经收获了巨大的进展,并迈入实用阶段,但由于目前的语音识别系统大部分在寂静环境工作,在噪声环境中,尤其是强噪声的环境下,语音识别系统的成功率将严重恶化。低速率语音编码,尤其是参数编码也会碰到类似的情况。由于语音生成模型是低速率编码的基础,当混杂于语音中的背景噪声干扰到模型参数的提取时,重建语音的音质将会急速恶化,甚至变得完全不能理解。
在上述的状况下,将语音增强用作预处理,或者减弱背景噪声的方法,在增强语音质量方面,可以作为解决噪声污染的一种高效手段。所以,研究语音增强技术在人类生活中有重要作用。目前,语音增强已在数字家电、通信工程、语音信号处理系统、多媒体等领域得到了越来越广泛的应用。
语音增强是解决噪声污染的重要方法之一,它的目标是从带噪语音信号中尽可能地提取纯净的初始语音或原始语音参数[2]。然而,干扰大部分情况下是随机的,因此从带噪语音中提取完全纯净的原始语音信号几乎是不可能的。这种情况下,增强语音的主要目的有两个[3]:一是提高语音质量,增强语音清晰度,消除背景噪声;二是提升语音的可懂度,使得说话人的语音容易分清。这两个目的总是不能兼顾,所以在实际运用中总是视客观情况而有所调整的[1]
1.2 语音增强的概述
早在60年代,人们就注意到了语音增强。之后的40年,人们坚持不懈地在这方面展开研究。伴随着数字信号处理理论的不断推陈出新,70~80年代喷涌出一个研究高潮,并发现了一些基础性成果。如:1987年,Lim和Oppenheim提出了维纳滤波法[4];1979年,Boll提出用谱减法来抑制噪声;1980年Maulay和Malpass提出了软判决噪声抑制方法[6];1984年,Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法[7]。语音增强成为语音信号处理的重要分支之一。80 年代以后,随着高速DSP及VSLI 的发展,语音增强的实时实现变为可能。语音增强进入实用阶段同时新的语音增强方法又不断浮现如基于小波变换的方法[8],基于人耳掩蔽效应[9]的方法等。
抗噪技术的研究和在实时环境下的语音信号处理系统的开发,在全球作为语音信号处理的主要研究方向,已投入了大量的开发研究,获得了丰硕的成果。现阶段,世界上的研究成果大致可以分为三类解决方案[7]。第一类是语音增强算法,提升语音识别系统前端预处理的抗噪能力,提升输入信号的信噪比;第二类方法是找到稳定的语音特征作为参数,实验证明此类参数对宽带语音具有良好的抗噪性;第三类是基于模型参数适应化的噪声补偿算法。这类方法不但可以导入语音和噪声的统计知识,提出具有一定环境稳健性的处理算法,并且在实际运用中与语音短时平稳的假设基本一致,成为当前研究的重点。但是目前的补偿算法通常只考虑到平稳噪声情况,在低信噪比语音以及非平稳噪声环境中的效果并不理想。三类方案中,语音增强算法的研究最为深入,应用也最为广泛,目前己经发展成为语音信号数字处理的一个重要分支[10]。
由于语音增强技术在增强语音的可懂度、改善语音质量和提高系统的信噪比 方面有着明显的效果,从抑制通信系统中的环境噪声到语音识别系统的预处理,语音增强技术有着举足轻重的地位,因此在过去的数十年中,语音增强算法激发了人们极大的研究兴趣[11]。在增强受噪声污染的语音信号方面已经有许多研究[12,13]。谱减法、维纳滤波、小波变换语音增强方法和修正的自适应噪声消除技术(ANC,adaptive noise canceling)以及许多类似的研究方法都已作为语音增强的算法[13,14-17]。
然而大部分语音算法都默认带噪语音中的噪声是零均值的平稳高斯白噪声[11];在小波变换、谱减法等算法中,噪声都是从含噪声语音中的寂静段估计而得的,噪声估计的精确度直接关系到语音增强的效果;而且,大部分的语音增强算法都是采取先存储然后读取文件处理的方法,不能进行实时的处理,限制了语音增强算法的实时应用。
1.3 本论文的主要结构
本论文在学习语音增强的基本理论的基础上,重点学习了谱减法、小波去噪、 以及维纳滤波这三种语音增强的方法,并对其进行仿真。以下是整篇文章的具体 结构安排:
第一章 绪论,阐述本课题的研究目的、应用背景、研究历史、国内外研究 成果以及本论文的主要内容。
第二章 介绍了语音增强的基本概念,以及对本课题所使用的仿真工具——MATLAB 进行介绍。
第三章 介绍了谱减法的基本原理,对其进行实验仿真,并且做出小结。
第四章 介绍了基于小波分析的原理,重点介绍了它在语音增强方面的应用。
第五章 介绍了维纳滤波的基本原理,并基于 MATLAB 平台进行实验仿真。 最后,对全文的工作进行总结,对三种方法经行对比,指出工程中的不足之处,以及以后研究的重点。第二章 语音增强基本概念
2.1 概述
语音增强涉及到人的听觉与语音学。噪声来源数目庞大,它们随着实际环境不同而特性有别,所以很难找到可以适用于各种情况的语音算法,面对不同环境下的噪声必须采取不同的语音增强方法。因此,要进行语音增强首先要了解语音特性、人耳感知特性与噪声特性[10]。
如下图 2-1 为语音增强的原理框图。
图2-1语音增强原理框图
2.2 语音特性
2.2.1 语音生成模型
为充分了解语音信号的特性,先画出语音信号的简单模型,如图2-2所示。
图2-2 语音信号产生模型
从图2-2中可以看出语音信号的模型包括三个部分:激励源、声道模型和辐射模型。激励源可以分为清音和浊音两个分支,清音的激励源是随机的噪声,浊音则是周期脉冲。模型把实际声道当作一个变截面声管来加以研究,采用流体力学的方法可以导出它的传递函数。
综上,人类的语音大概可以分为清音和浊音两部分,其中清音具有随机性,和白噪声有类似之处,浊音具有明显的周期性。根据这个特性,可以采用梳状滤波器来控制非语音分量或者提取语音分量。另外导出的声道模型参数对语音增强也十分有用,如卡尔曼滤波就是根据声道参数而设计的一种语音增强法。
2.2.2 语音的时间波形和频谱特性
除了语音生成模型法外,还可以通过研究语音的时域或频域波形来总结其特性。通过对时域波形的研究可以看出语音信号的一些重要特点。图2-3—图2-6是浊音[a]和清音[s]的时域波形。这段语音信号以每秒44100点的速度采样,图中横坐标表示样点数,纵坐标表示信号的振幅。从该图看出,清音和浊音波形有巨大的差异。由图2-3和图2-5可以看出,浊音振幅较大,有一定的周期规律,波形变化较缓慢,大致可以认为在200个采样点内其波形是固定不变的;由图2-3和2-5则可以看出,清音的振幅较小,波形的变化没有规律性,与白噪声的时域波形十分接近。
图 2-3 浊音[a]的波形
图 2-4 清音[s]的波形
图 2-5 浊音[a]的局部波形
图 2-6 清音[a]的局部波形
(a)[a]的频域波形 (b)[s]的频域波形
图 2-7 [a]和[s]的频域波形
下面根据图2-7来观察语音信号的频谱特性。图中(a)所示为[a]的局部波形的频谱图,其时域波形如图2-5所示。这段信号包括1400个取样值,相当于30ms的时间内取值,取样频率为44100Hz。从图上能很明显地看出浊音的基音及其谐波频率。具体地讲,在0~1000Hz之间差不多有6个波峰,基音频率大约为160Hz。另外频谱图还表示出能量比较集中的三个区域,它们分别位于160Hz,1000Hz和2700Hz 附近。这就是三个共振峰频率,一般来说,浊音频谱超过3400Hz以后便迅速下降。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/2216.html

好棒文