多人场景的基音分离
最近,多基音的提取在国内外都掀起了一股热潮,多基音检测的技术研究也开始备受关注。但是由于国内对于基音检测的研究起步晚于国外,所以目前研究最为成熟的还是单基音检测,多基音检测在国内还算是比较新颖的话题。当前使用最多的基音提取系统都是在HMM的基础上建立起来的。基于概率的HMM能够应用得这么广泛,不仅是因为它对短时平稳的信号有很强的辨识能力,而且具有较高的语音识别能力。语音信号的结构是复杂的,所以对于语音信号的研究就要求系统对时间有很好的建模能力,HMM(Hidden Markov Model)不仅满足了这一点还能跟踪信号状态的转移过程。 本文提出了一个简单而有效的特征建模方法用于同时跟踪两个说话者的基音,主要是使用了FHMM(Factorial Hidden Markov Model),该模型的特点是:在任何一个时刻的观测输出值不仅仅依赖于当前状态,还依赖于当期那状态的前任意一个状态。首先,本文通过使用GMM(Gaussian Mixture Model)并结合MDL(Minimum Description Length)的选择原则建立了单人场景扬声器的特征谱图。然后,通过使用MIXMAX产生两个说话者混合话语的概率。最后,使用FHMM基音进行跟踪。本文在GRID数据库的背景下使用MATLAB仿真软件进行仿真,得出的结论是:使用本文提出的这种基于MIXMAX-FHMM的方法进行多基音跟踪,所得到的基音轨迹与真实基音轨迹十分接近。
目录
摘要 II
目录 IV
第一章 绪论 1
1.1多基音提取的研究背景 1
1.2基音检测技术的发展 1
1.3 本文的内容和章节安排 2
1.4 本章小节 3
第二章 基于多阶的隐马尔科夫模型 4
2.1 HMM隐马尔科夫模型 4
2.2隐马尔科夫模型的分类 4
2.3 HMM的三大基本问题 5
2.4 HMM基本问题对应的解决算法 6
2.4.1 前向算法 6
2.4.2 后向算法 6
2.5 Viterbi算法 7
2.6 BlaumWelch算法 8
2.7基于
*好棒文|www.hbsrm.com +Q: ¥351916072¥
多阶的隐马尔科夫模型 9
2.8 FHMM中相关参数的设定 11
2.9 本章小节 12
第三章 混合最大化交互模型 13
3.1 决策树算法 13
3.2 基于MDL准则的决策树剪枝 14
3.3高斯混合模型 16
3.3.1 GMM的定义和基本原理 16
3.3.1 最优GMM模型的确定 16
3.3 混合最大化交互模型的实现 17
3.4本章小节 19
第四章 基音跟踪 20
4.1多基音跟踪 20
4.1.1预处理 21
4.1.2特征参数提取 21
4.2多基音跟踪系统的框架结构 22
4.3平滑处理 23
4.4 本章小节 24
第五章 实验结果 25
5.1 GRID 数据库 25
5.2参数设置 25
5.3实验和仿真的辅助工具 26
5.4实验参数设定 27
5.5实验结果分析 28
5.6 本章小节 32
第六章 论文总结 33
6.1论文总结 33
6.2本文已完成工作 33
6.3 下一步的工作内容 34
6.4 本章小节 34
参考文献 36
附录 38
第一章 绪论
1.1多基音提取的研究背景
近一个世纪以来,多人场景的基音提取已经不是一个新鲜的话题。国内外正对这一命题做了大量的研究,但是由于语音信号的周期不稳定性、时变性强、由于说话时情绪和说话对象不同所产生的发音特点不同等等原因,使得多人场景的基音跟踪变得极其困难[]。但是由于该命题研究成功所带来的巨大意义,驱动着研究人员不断进步。
基音就是人发音的时候,如果发出的声音引起了声带振动,那么这个声带振动的频率就是基频(也就是基音),基频的倒数就是基音周期。基音分离的目的就是借助仿真软件或者其他的工具描绘出与声带振动频率完全一致或者最大程度相吻合的基音周期轨迹变化的曲线[2]。另外要说明的是,人类发出的声音主要分为两种,一种为清音,另一种为浊音[2];而只有发浊音的时候才会引起人类声带的振动,换句话说,只有发浊音的时候我们才能提取到基音轨迹变化的曲线。
单人场景的基音提取是指在每一个时间帧内,要处理的对象只有一个说话者的语音,它可以包含背景噪声也可以不包含,这种对基音轨迹进行跟踪的过程就叫做单人场景的基音提取。多人场景的基音提取是指,在某一个时间帧,测试的话语内包含两个、三个或者更多的语音(并且来自不同的说话者),无论是有背景噪声还是没有,对这一测试话语进行基音轨迹跟踪的过程就称为多人场景的基音提取。
提取并且跟踪基音轨迹在语音和信号处理方面的算法研究和应用都有十分重要的作用,比如说:单信道的盲源分离,语音压缩和音乐、韵律的语音分析等等[3]。之前大量的研究对于无噪音的一人的基音分离有极强的可执行性,但是对于带噪音坏境并且多人场景的基音提取认为,之前的算法应用在这个前提下极难实现。
1.2基音检测技术的发展
M. Wu等人 [4]提出了一种加强基音提取的方法。它本身是建立在单一模型获取基音的方法上产生的,主要是引进了用概率表示信号周期的方法。
黄世涛在毕业论文中,使用了一种利用谐波的多基音检测方法。算法主要是在正弦的谐波理论上进化而来,通过检测出被测试话语频域内谐波的峰值,从而获取到基音轨迹信息。
在2009年,陈程在论文使用了一种连续的HMM进行多基音提取,首先从测试话语中选择服从高斯分布的观测值,然后在用高斯加权来近似得到测试话语的概率分布,从而建立HMM模型。
D.Wang等人利用HMM跟踪概率从而产生的半连续基音轨迹[4]。虽然这种模型方法就准确度而言,操作性能是极强的,但是它本身存在一个缺陷,这种方法不能够将提取到的基音轨迹和发生源产生的所有基音轨迹进行相互联系。
在F.R. Bach 等人的研究中使用了一种基于FHMM的方法,这种方法在多人场景的基音提取上相比其他方法更为高效,使用这种FHMM算法,就是将观察输出值的状态与该状态的前一个和后一个状态相互联系起来。
最近,Wohlmayr等人提出了一种对混合语音的特征谱图参数和高斯混合模型(GMMs)进行跟踪从而得到多基音轨迹的方法。它的优点是:利用依赖形的扬声器,这样被提取基音轨迹与与之相关的发生源不相互关联的问题可以得到很好的解决。
以上提到的基音检测算法,大多使用于对孤立字词的基音提取、在单人场景的基音提取或者是没有背景噪声的情况下进行基音提取的时候有很好的执行能力,但是在多人场景的基音提取情况下,执行效果不佳,得到的输出基音轨迹与真实基音轨迹有较大的误差。
1.3 本文的内容和章节安排
对于多基音检测,大多数算法都不能完整而且准确的提提出真实的基音轨迹。本问基于概率统计,提出了一种改进的参数建模方法进行多人场景的基音提取[5],,把这种方法命名为混合最大化的多阶隐马尔科夫模型(MIXMAXFHMM)。首先通过GMM将单人扬声器的依赖形特征谱参数进行建模。然后使用混合最大化的方法和单人扬声器的GMM相结合的方法,产生两个扬声器相混合后测试话语的基音概率模型。
本文新提出的这种算法主要是在GRID数据库的环境下进行的,从实验结果可以得到这样一个结论:本文新提出的方法征对在0dB的环境下混合的测试话语相比基于相关特征变量的方法有更好的输出执行能力;如果在干净的信道中加入了10dB的高斯白噪声,该算法对多基音的提取结果是:提取出来的基音轨迹和真实的基音轨迹基本吻合,同时也发声扬声器互相关联。从性能上来说,该算法能完全满足多基音提取的要求。
目录
摘要 II
目录 IV
第一章 绪论 1
1.1多基音提取的研究背景 1
1.2基音检测技术的发展 1
1.3 本文的内容和章节安排 2
1.4 本章小节 3
第二章 基于多阶的隐马尔科夫模型 4
2.1 HMM隐马尔科夫模型 4
2.2隐马尔科夫模型的分类 4
2.3 HMM的三大基本问题 5
2.4 HMM基本问题对应的解决算法 6
2.4.1 前向算法 6
2.4.2 后向算法 6
2.5 Viterbi算法 7
2.6 BlaumWelch算法 8
2.7基于
*好棒文|www.hbsrm.com +Q: ¥351916072¥
多阶的隐马尔科夫模型 9
2.8 FHMM中相关参数的设定 11
2.9 本章小节 12
第三章 混合最大化交互模型 13
3.1 决策树算法 13
3.2 基于MDL准则的决策树剪枝 14
3.3高斯混合模型 16
3.3.1 GMM的定义和基本原理 16
3.3.1 最优GMM模型的确定 16
3.3 混合最大化交互模型的实现 17
3.4本章小节 19
第四章 基音跟踪 20
4.1多基音跟踪 20
4.1.1预处理 21
4.1.2特征参数提取 21
4.2多基音跟踪系统的框架结构 22
4.3平滑处理 23
4.4 本章小节 24
第五章 实验结果 25
5.1 GRID 数据库 25
5.2参数设置 25
5.3实验和仿真的辅助工具 26
5.4实验参数设定 27
5.5实验结果分析 28
5.6 本章小节 32
第六章 论文总结 33
6.1论文总结 33
6.2本文已完成工作 33
6.3 下一步的工作内容 34
6.4 本章小节 34
参考文献 36
附录 38
第一章 绪论
1.1多基音提取的研究背景
近一个世纪以来,多人场景的基音提取已经不是一个新鲜的话题。国内外正对这一命题做了大量的研究,但是由于语音信号的周期不稳定性、时变性强、由于说话时情绪和说话对象不同所产生的发音特点不同等等原因,使得多人场景的基音跟踪变得极其困难[]。但是由于该命题研究成功所带来的巨大意义,驱动着研究人员不断进步。
基音就是人发音的时候,如果发出的声音引起了声带振动,那么这个声带振动的频率就是基频(也就是基音),基频的倒数就是基音周期。基音分离的目的就是借助仿真软件或者其他的工具描绘出与声带振动频率完全一致或者最大程度相吻合的基音周期轨迹变化的曲线[2]。另外要说明的是,人类发出的声音主要分为两种,一种为清音,另一种为浊音[2];而只有发浊音的时候才会引起人类声带的振动,换句话说,只有发浊音的时候我们才能提取到基音轨迹变化的曲线。
单人场景的基音提取是指在每一个时间帧内,要处理的对象只有一个说话者的语音,它可以包含背景噪声也可以不包含,这种对基音轨迹进行跟踪的过程就叫做单人场景的基音提取。多人场景的基音提取是指,在某一个时间帧,测试的话语内包含两个、三个或者更多的语音(并且来自不同的说话者),无论是有背景噪声还是没有,对这一测试话语进行基音轨迹跟踪的过程就称为多人场景的基音提取。
提取并且跟踪基音轨迹在语音和信号处理方面的算法研究和应用都有十分重要的作用,比如说:单信道的盲源分离,语音压缩和音乐、韵律的语音分析等等[3]。之前大量的研究对于无噪音的一人的基音分离有极强的可执行性,但是对于带噪音坏境并且多人场景的基音提取认为,之前的算法应用在这个前提下极难实现。
1.2基音检测技术的发展
M. Wu等人 [4]提出了一种加强基音提取的方法。它本身是建立在单一模型获取基音的方法上产生的,主要是引进了用概率表示信号周期的方法。
黄世涛在毕业论文中,使用了一种利用谐波的多基音检测方法。算法主要是在正弦的谐波理论上进化而来,通过检测出被测试话语频域内谐波的峰值,从而获取到基音轨迹信息。
在2009年,陈程在论文使用了一种连续的HMM进行多基音提取,首先从测试话语中选择服从高斯分布的观测值,然后在用高斯加权来近似得到测试话语的概率分布,从而建立HMM模型。
D.Wang等人利用HMM跟踪概率从而产生的半连续基音轨迹[4]。虽然这种模型方法就准确度而言,操作性能是极强的,但是它本身存在一个缺陷,这种方法不能够将提取到的基音轨迹和发生源产生的所有基音轨迹进行相互联系。
在F.R. Bach 等人的研究中使用了一种基于FHMM的方法,这种方法在多人场景的基音提取上相比其他方法更为高效,使用这种FHMM算法,就是将观察输出值的状态与该状态的前一个和后一个状态相互联系起来。
最近,Wohlmayr等人提出了一种对混合语音的特征谱图参数和高斯混合模型(GMMs)进行跟踪从而得到多基音轨迹的方法。它的优点是:利用依赖形的扬声器,这样被提取基音轨迹与与之相关的发生源不相互关联的问题可以得到很好的解决。
以上提到的基音检测算法,大多使用于对孤立字词的基音提取、在单人场景的基音提取或者是没有背景噪声的情况下进行基音提取的时候有很好的执行能力,但是在多人场景的基音提取情况下,执行效果不佳,得到的输出基音轨迹与真实基音轨迹有较大的误差。
1.3 本文的内容和章节安排
对于多基音检测,大多数算法都不能完整而且准确的提提出真实的基音轨迹。本问基于概率统计,提出了一种改进的参数建模方法进行多人场景的基音提取[5],,把这种方法命名为混合最大化的多阶隐马尔科夫模型(MIXMAXFHMM)。首先通过GMM将单人扬声器的依赖形特征谱参数进行建模。然后使用混合最大化的方法和单人扬声器的GMM相结合的方法,产生两个扬声器相混合后测试话语的基音概率模型。
本文新提出的这种算法主要是在GRID数据库的环境下进行的,从实验结果可以得到这样一个结论:本文新提出的方法征对在0dB的环境下混合的测试话语相比基于相关特征变量的方法有更好的输出执行能力;如果在干净的信道中加入了10dB的高斯白噪声,该算法对多基音的提取结果是:提取出来的基音轨迹和真实的基音轨迹基本吻合,同时也发声扬声器互相关联。从性能上来说,该算法能完全满足多基音提取的要求。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wlw/670.html