语音增强时域算法研究与实现

语音增强时域算法研究与实现
本文重点研究了基于频谱相减法和维纳滤波法的增强算法。谱减方法的优点在于方法较简单(只需要进行傅立叶正反变换),而且得到的增强结果和其它更复杂方法的结果相当甚至更好。但是该方法会造成“音乐噪声”,这是因为实际噪音谱相对于估计谱的随机变化造成的。可以用多种方法减轻这种噪声,但无法完全消除。维纳滤波方法最大的好处是增强后的残留噪声类似于白色噪声,而不是有节奏起伏的“音乐噪声”。但是维纳滤波只在平稳条件下才能保证在最小均方误差意义下的最优估计。而语音是非平稳的,只在短时间内近似平稳,实际环境中的噪声也多是非平稳的,这正是维纳滤波的缺陷所在。因此,本文以最大限度减少残留噪声和背景噪声为目的,在实验中,分别利用谱减法和维纳滤波法进行仿真实验,方便对两种算法的效果进行直观的对比和分析,并取得了较好的实验结果。此外,本文还研究了改进后的谱减法,能够使增强后的语音更加符合人耳的听觉感知。20190809205528
关键词:语音增强 语音信号数字处理  语音编码  频谱相减法  感知特性
4.1.1 基于参数和模型的方法
基于参数和模型的方法通常有两大类,分析合成法和利用滤波器进行滤波处理的方法。分析合成方法关键在于如何从带噪语音中准确地估计语音模型的参数。利用滤波器进行滤波处理的方法关键在于利用声道参数构造滤波器进行滤波处理。在实际应用过程中有时会把两者合并在一起研究,相互辅助相互补充。用的最多的主要有下列几种方法。
(1)最大后验概率估计法:最大后验概率估计法在一定程度上能消除噪声干扰,提高信噪比。
(2)卡尔曼滤波法:卡尔曼滤波的基本特征之一是利用状态方程和测量方程来描述随机系统。卡尔曼滤波的优点是噪声在平稳和非平稳情况下都能使用,能在不同程度上消除噪声,提高信噪比。而缺点是方法计算量大,需要假设生成模型的激励源为白噪声源且只在清音段才成立。试听发现该方法对语音造成了一定的损伤。
(3)梳状滤波器法:因为语音信号浊音段有明显周期性的特点,因此可以采用梳状滤波器从信号中提取语音分量,抑制噪声。这种方法的关键是要准确估计出语音信号的基音周期。在基音变化的过渡段和强噪声背景干扰下无法精确估计时,这种方法的应用受到限制。这种方法一般也只适用于平稳的非白噪声。
4.1.2 子空间的方法
子空间法就是将带噪声语音信号分解为正交的信号加噪声子空间和纯噪声子空间,对纯净语音信号的估计可以将噪声子空间中的信号舍弃,一直保留信号子空间中的信号,来预测干净的语音来达到降噪的目的。子空间法的优点是有效地去除带噪语音中的背景噪声,使语音的质量和可懂度都有较大的提高,但是该方法的计算量较大,因此在快速计算中该方法需要进一步研究。
4.2频域方法
由于语音信号的短时谱具有较强的相关性,而噪声的前后相关性很弱,因此可以利用短时谱估计的方法从带噪语音中估计原始语音。同于人耳对语音相位感受不敏感,可将估计的对象放在短时谱的幅度上。典型的方法有谱减法、维纳滤波法、短时谱幅度的MMSE估计法、自适应滤波法等。
1、谱减法
谱减法是从带噪语音估值中减去噪声频谱估计,而得到纯净语音的频谱。谱相减法总体上运算量较小,容易实时实现,增强效果也较好,是目前处理宽带噪声的最通用技术方法。由于人耳对语音频谱分量的相位不敏感,因而这种方法主要针对短时幅度谱。但是也存在一定的缺陷,谱减法是一种最大似然估计,没有对语音频谱的分布进行假设,因此谱减法进行增强处理后,会带来音乐噪声,不仅使人们在听觉效果上产生一定的干扰影响,还影响以后的处理,如语音编码等。特别对于变化较快的语音,传统谱减法的处理速度达不到实验需求。
2、维纳滤波法
维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲激响应,使得带噪语音信号经过该滤波器后得到最接近于纯净的语音信号。
采用维纳滤波的好处是增强后的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。但是维纳滤波只在平稳条件下才能保证在最小均方误差意义下的最优估计,而语音是非平稳的,只是在短时间内近似平稳。实际环境中的噪声也常是非平稳的,因此采用维纳滤波来增强语音存在一定的缺陷。
3、短时谱幅度的最小均方误差(MMSE)估计法
针对特定的失真准则和后验概率不敏感的估计方法,利用已知的噪声功率谱信息,从带噪语音短时谱中估计出纯净语音短时谱,达到语音增强的目的。对于语音短时谱幅度的分布,通常通过两种途径解决。一是假设一个合理的概率分布模型,另一个则是通过实际统计的方法去获得。为此,假设语音频谱分布为高斯分布,并在此假设下推导MMSE估计公式,然后讨论实际分布情况。
另外,可以利用相邻帧间频率点信息的相关性,对当前帧频率点的频谱幅度值进行估计,这就是基于帧间频谱分布约束的MMSE估计方法.又因为人耳对声音强度的感受是与谱幅度的对数成正比的,因此在处理语音谱幅度时,采用对数失真准则更为适合一些.为此,将上述MMSE估计式进行推广,得到频域分布约束下的短时对数谱的MMSE估计。短时谱幅度的MMSE估计在降噪和提高语音可懂度方面进行了折衷,适用信噪比的范围较广,但是计算量较大,而且语音频谱的先验分布获得在很大程度上要取决于统计结果的代表性、重现性等。
4、自适应滤波器法
以均方误差或方差最小为准则,对噪声信号进行最优估计,然后从带噪语音中减去噪声达到降噪,提高信噪比,增强语音的目的。当输入信号的统计特性未知,或者输入信号的统计特性变化时,自适应滤波器能够自动地迭代调节自身的滤波器参数,以满足某种准则的要求,从而实现最优滤波。因此自适应滤波器具有自我调节和跟踪能力。
此方法的关键是如何得到带噪语音中的噪声。在多声道采集系统中,两个话筒间要有一定的距离,因而实时采集的两路信号的噪声不同,而且还受到回声及其他可变衰减特性的影响。在用单声道系统来采集带噪语音时,必须在语音间歇期间利用采集到的噪声进行估值,如果噪声是非平稳的,会严重影响语音的增强效果。此外另一个缺点是增强后的语音中含有明显的“音乐噪声”。
5、隐马尔可夫模型法
在传统的线性理论难以使语音识别技术进一步提高时,随着对隐马尔柯夫模型的重新认识和广泛应用,掀起了语音识别研究的一个热潮。
可以采用基于状态空间的变换方法,对不同类别的语音和噪声信号建立不同的模型。隐马尔可夫模型的各个状态可以对带噪信号、噪声信号所有不同的区域进行充分的建模,将带噪信号中的噪声信号部分去除就可得到语音的增强。甚至于在只有带噪信号的情况下,利用隐马尔可夫模型对状态转移概率进行建模,将可能为噪声的信号部分滤除,就可以做到语音增强。但是这种方法,在只有带噪信号的情况下要正确分类,准确估计噪声有会一定的误差。
摘   要        I
第一章  绪论    1
1.1语音增强技术简介    1
1.2 研究目的与意义    2
1.3语音增强算法的研究现状    3
第二章  语音信号处理的基础知识    5
2.1语音信号生成的数学模型    5
2.1.1 激励模型    5
2.1.2 声道模型    5
2.1.3 辐射模型    6
2.1.4 语音信号的数字模型    6
2.2 语音信号的数字化和预处理    7
2.2.1 预加重    8
2.2.2 加窗    8
2.2.3 分帧    9
2.3 本章小结    10
第三章  语音信号及噪声的特性    11
3.1 语音特性    11
3.2 噪声特性    11
3.3 人耳感知特性    13
3.4 本章小结    14
第四章 语音增强算法    15
4.1 时域方法    15
4.2 频域方法    16
4.3 其他方法    18
第五章    语音增强改进算法    20
5.1 改进的谱减法    20
5.2 改进的维纳滤波算法    24
5.3 实验仿真与分析    27
第六章    总结    35
参考文献    37
英文翻译    1

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/2164.html

好棒文