语音增强算法研究与实现

语音增强算法研究与实现[20191213092200]
摘 要
语音增强目前己发展成为语音信号数字处理的一个重要分支。它的主要作用是降低噪声、增强语音的清晰度,主要应用于语音识别和语音编码系统的预处理。语音增强算法有许多种,目标都是为了增强语音的清晰度与理解度,这两个目标并不是相关联的,有时甚至相互矛盾,因此任何一个语音增强系统都是根据不同的应用做适当的选择和折衷。
本文重点研究了基于频谱相减法和维纳滤波法的增强算法。谱减方法的优点在于方法较简单(只需要进行傅立叶正反变换),而且得到的增强结果和其它更复杂方法的结果相当甚至更好。但是该方法会造成“音乐噪声”,这是因为实际噪音谱相对于估计谱的随机变化造成的。可以用多种方法减轻这种噪声,但无法完全消除。维纳滤波方法最大的好处是增强后的残留噪声类似于白色噪声,而不是有节奏起伏的“音乐噪声”。但是维纳滤波只在平稳条件下才能保证在最小均方误差意义下的最优估计。而语音是非平稳的,只在短时间内近似平稳,实际环境中的噪声也多是非平稳的,这正是维纳滤波的缺陷所在。
因此,本文以最大限度减少残留噪声和背景噪声为目的,在实验中,分别利用谱减法和维纳滤波法进行仿真实验,方便对两种算法的效果进行直观的对比和分析,并取得了较好的实验结果。此外,本文还研究了改进后的谱减法,能够使增强后的语音更加符合人耳的听觉感知。
 查看完整论文请+Q: 351916072 
关键字:语音增强语音信号数字处理语音编码频谱相减法感知特性
目 录
摘 要 I
第一章 绪论 1
1.1语音增强技术简介 1
1.2 研究目的与意义 2
1.3语音增强算法的研究现状 3
第二章 语音信号处理的基础知识 5
2.1语音信号生成的数学模型 5
2.1.1 激励模型 5
2.1.2 声道模型 5
2.1.3 辐射模型 6
2.1.4 语音信号的数字模型 6
2.2 语音信号的数字化和预处理 7
2.2.1 预加重 8
2.2.2 加窗 8
2.2.3 分帧 9
2.3 本章小结 10
第三章 语音信号及噪声的特性 11
3.1 语音特性 11
3.2 噪声特性 11
3.3 人耳感知特性 13
3.4 本章小结 14
第四章 语音增强算法 15
4.1 时域方法 15
4.2 频域方法 16
4.3 其他方法 18
第五章 语音增强改进算法 20
5.1 改进的谱减法 20
5.2 改进的维纳滤波算法 24
5.3 实验仿真与分析 27
第六章 总结 35
参考文献 37
英文翻译 1
第一章 绪论
1.1语音增强技术简介
通过语音来与人传递信息是人类进化以来最重要的基本功能之一,语言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最为重要的手段。虽然人们还可以用诸如图像、文字等来传递信息,但是声音无疑是最为直接、最为可靠的传递方式。因此,语音的重要性不言而喻。而在语音传递过程中,也会不可避免的受到周围噪声的影响,对语音的增强、噪声的削弱就显得尤为重要。语音信号处理就是最近产生的用来研究用数字信号处理技术对语音信号进行处理的学科,处理的目的是用于得到某些参数以便高效传输或存储;或者是用于某种应用,比如通过人工的方法合成出语音、从众多语音中辨识出讲话者。识别出讲话内容,进行语音增强等。
语音信号处理是一门新兴的学科,同时又是综合性的多学科领域,是一门涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信息处理及计算机等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学及数理统计等需要学科也有非常密切的联系。
语音信号处理是信息需要领域应用的可信技术之一,是目前发展最为迅速的信息科学研究领域中的一个。语音处理是目前极为活跃和热门的研究领域,其研究设计一系列前言科研课题,并且处于迅速发展之中;其研究成果具有重要的学术及应用价值。
在上个世纪六十年代中期一系列数字信号处理的方法和一些专门用于处理带噪语音的算法初步形成,语音信号数字处理的理论知识得到了飞速的发展,一些基础技术也展开了研究。如数字滤波器、快速傅里叶变换等。在迈入二十世纪七十年代以后,语音技术在实际应用中取得了实际性的进展;用于压缩语音信号和特征提取的线性预测技术,已经成为语音信号处理最重要的工具,在语音信号的分析、合成及各个应用领域广泛使用,发挥了非常巨大的作用;用于输入语音与参考样本之间时间匹配的动态规划方法,也是语音处理发展史上不可或缺的重要方法。八十年代初,矢量量化的方法应用于语音信号处理中,这是一种新的基于聚类分析的高效数据技术;隐式马尔可夫模型描述语音信号过程的方法也初步产生,这个模型是八十年代语音信号处理技术的重大进展。近年来人工人工神经网络的研究取得了迅速发展,语音信号处理的各项课题是促使其发展的重要动力之一。同时,它的许多成果,也体现在有关语音的各项应用之中,尤其语音识别是人工神经网络的一个重要应用领域。
在现今高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成、增强等,是整个数字化通信网中最重要、最基本的成分之一。同时,语言是人类相互间沟通的最自然和最方便的形式。因此可以在计算机、自动化系统等设备上面建立一套独特的人机交互环境,用这种方法来进一步推动计算机以及一些智能机器的应用,这样的话社会信息化和自动化的程度将会大大提高。
语音处理技术的应用及其广泛。在当前的市场上,语音处理技术的应用包括工业、军事、交通、医学、民用等各个领域。目前,语音处理技术正处于蓬勃发展时期,已有大量产品投放市场,并且不断有新产品被开发研制,具有及其广泛的市场需要和应用前景。
1.2 研究目的与意义
当今世界,语音的使用正在逐步增加。语音是信息时代重要的信息交互手段。电话、微信、QQ语音、YY语音、助听器等的使用已经渗透入我们的日常生活。不仅是年轻人,许多老年人也逐渐在互联网上应用这些语音软件。而在实际生活中,语音信号无时无地不受各种噪声干扰。人们正常的生活环境就是一个声级为60dB左右的噪声环境。被强噪声污染的场合,噪声达120dB以上。
语音质量的重要性也在逐步增加,人们越来越希望传输的语音更清晰更纯净。Bell实验室对电话系统的音节清晰度进行了系统的实验,并创立出了清音和浊音两个概念。也有许多的研究表明,只有语音比噪音高出20一40dB时,噪音才不会对听觉产生有害的影响。因此,如何提高语音的质量,即语音信号的增强也显得尤为重要。
语音增强算法虽然有许多种,但是语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个。一是改进语音质量,消除背景噪音,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得。目前有一些对低信噪比带噪语音进行语音增强的方法,可以显著地降低背景噪声,改进语音质量,但并不能提高语音的可懂度,甚至略有下降,但目标都是为了增强语音的清晰度与理解度,这两个目标并不是相关联的,有时甚至是矛盾,因此任何一个语音增强系统都是根据不同的应用做适当的折衷。
而且语音在传输过程中肯定会受到各种各样的信号干扰。因此,传递过来的语音中不可避免的会带有许多的噪声成分。在这样一种情况下,语音增强的目标就是从带噪声的语音信号中,尽可能的提取出相对纯净的原始语音,抑制背景环境噪声的力度,提高语音的质量并且提高听者的舒适度,使听者不感觉疲劳。因此,人们在研究语音增强的时候,一般都会是从语音特点、噪声特点和人耳的感知特性等方面入手。
另外在语音识别系统、语音编码系统中,由于在设计的时候,这些系统一般情况下,都是针对的纯净语音,当这些系统对带噪的语音信号进行处理的时候,很容易导致系统性能的急剧恶化,甚至不能够正常的工作,这时也需要对带噪语音进行语音增强处理。在实际应用中,这些系统都在其前端加上语音增强系统作为预处理器,以提高其抗干扰能力,维持其系统性能。语音增强技术目前广泛应用在各种语音信号处理的领域中。
1.3语音增强算法的研究现状
在近几十年的研究当中,各种语音增强方法不断地被提出,它奠定了语音增强理论的基础并使之逐渐走向成熟。随着近些年VLSI技术的发展和高速DSP芯片的出现,使语音增强的实时实现成为可能。语音增强方法逐步走向实际应用,同时许多新的语音增强方法又相继涌现,最大后验概率估计法、卡尔曼滤波法、梳状滤波器法、子空间的方法、谱减法、维纳滤波法、短时谱幅度的MMSE估计法、自适应滤波法等。
语音增强不但与语音信号处理理论有关,而且涉及到人的听觉感知和语音学。噪声来源众多,随着应用场合的改变,它们的特性也各不相同。即使在实验室仿真条件下,也难以找到一种通用的语音增强算法,能适用于各种噪声环境。所以必须针对不同的噪声,采取不同的语音增强方法。就目前来说,语音增强的方法分为三类。第一类是时域方法,例如基于参数和模型的方法、子空间的方法等;第二类是频域方法,例如谱减法、自适应滤波法,以及基于马尔柯夫模型滤波方法等;第三类是其它方法,例如小波变换法、听觉掩蔽法等。
在以上的几种语音增强算法中,有好几种算法都有相当一段发展历史了,比如基于人耳掩蔽效应的方法,基于听觉屏蔽的增强算法,谱减法等。而这之中,最为常用的就是谱相减法及其改进形式,因为它的运算量较小,容易实时实现,而且增强效果也较好,因此许多研究都选用这种方法。就近几年的发展趋势而言,人们的研究热点是基于最小均方误差算法和听觉屏蔽法。但是在输入低信噪比带噪语音情况下,这两种算法除噪效果还不够好,都会产生相应的一些问题,因此本文继续针对这些弊端问题去解决。
第二章 语音信号处理的基础知识
2.1语音信号生成的数学模型
2.1.1 激励模型
一般将激励模型分成浊音激励和清音激励来讨论。
浊音时,激励信号由一个周期脉冲发生器产生。所产生的序列是一个周期为T的冲激序列,T的倒数即为基音频率。为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要使上述的冲激序列通过一个声门脉冲模型滤波器G(z) 。对声门波形的频谱分析表明,其幅度谱按12dB/倍频程的速度衰减。整个激励模型可表示为:
(2-1)
G(z)声门模型,E(z)单位脉冲串及幅值因子的Z变换。
清音时,因声道被阻塞,故可模拟成随机噪声。激励信号由一个随机噪声发生器产生。设其均值为0,方差为常数,幅度具有高斯概率分布。乘系数的作用是调节清音信号的幅度。
2.1.2 声道模型
1)声管模型:即把声道视为由多个等长不同截面积的管子串联而成,并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内,声道可表为形状稳定的管道,并可以认为声波是沿管轴传播的平面波。
图2-1 声管模型
2)共振蜂模型:即把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫作共振峰。
人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型,分别是级联型、并联型和混合型。
图 2-2 混合型共振峰模型
2.1.3 辐射模型
辐射模型类似一阶高通滤波器。通常用一个一阶差分方程近似描述
(2-2)
R (n)是信号的自相关函数。它所导致的是输出信号高频提升每倍频 6dB 左右。在语音信号预处理技术中常用的预加重技术也是用了该方法。由辐射引起的能量损耗正比于辐射阻抗的实部R(z),其频响曲线表现出一阶高通滤波器的特性。在实际信号分析时,常用所谓预加重技术。这样,模型只剩下声道部分,对参数分析就方便了,在语音合成时再进行解加重处理。
2.1.4 语音信号的数字模型
完整模型可以用三个模型的级联来表示
(2-3)
在浊音情况下, E(z) 是一个周期冲激序列,且A=Av
(2-4)
在清音情况下, E(z) 是一个随机噪声,且A=Au
(2-5)
声道的传输函数具有全极点的性质,这对于元音和大多数辅音来说是比较符合实际的,但对于鼻音和阻塞音来说,由于出现了零点,这种模型就不够准确了。一种解决问题的方案是在V(z)中引入若干零点,另一种方法是适当提高阶数P,使得全极点模型能更好地逼近具有此种零点的传输函数。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/2259.html

好棒文