语音分离算法研究与实现
语音分离算法研究与实现[20191213092218]
摘要
在当前智能信号处理学科的研究领域中,盲信号处理技术崭露头角,其中,盲分离技术成为主要分支之一。所谓盲信号就是杂乱无章,没有规律可循的信号。盲源分离和盲信号提取是从观测到的盲信号中恢复出纯净的源信号的有效方法。目前这种技术已广泛地应用在通信系统、语音处理、遥感、医学成像、地震探测、地球物理、计量经济学、数据挖掘等领域。
目前,用于盲源分离比较成熟的方法为独立分量分析法(ICA,Independent Components Analysis)。现有的盲信号处理的算法,大都是基于独立分量分析的,通过对ICA的研究就可以把这些算法统一起来,所以本文基于前人的基础,研究了独立分量分析方法及算法在语音信号分离方面的应用,并着重介绍了快速固定算法和JADE算法,探讨了其改进方法。
论文首先介绍了盲信号分离的基本知识,包括BBS和ICA基本原理、数学模型、研究进展等。了解了信息统计理论相关知识后,对基于ICA的算法进行了简单的分类和概括性的解释。最后着重研究了FastICA快速固定算法及JADE算法,给出了详细的推导,提出了可行的改进方案,以上方法均用计算机进行了有效的仿真,并得到有效的分离结果。根据仿真过程和波形,对两种算法进行了简单的分析与比较。
查看完整论文请+Q: 351916072
关键字:盲信号处理语音信号分离ICAFastICA算法JADE算法
Key Words:Blind Signal Processing,Speech signal separation,ICA, FastICA algorithm, JADE algorithm 目 录
摘要 I
ABSTRACT II
第一章 绪论 1
第一节 盲信号分离研究背景以及意义 1
第二节 盲信号分离的国内外研究现状 2
一、盲源分离的发展历史 2
二、盲源分离的研究现状 3
第三节 盲信号分离的应用及前景 5
第四节 本文的主要研究内容以及章节安排 5
第二章 盲信号分离基本理论知识 7
第一节 盲信号分离的原理 7
第二节 盲信号分离的主要数学模型 7
一、瞬时线性混合模型 7
二、卷积混合模型 8
三、非线性混合模型 9
(一)一般非线性模型 9
(二)后非线性模型 10
第三节 统计独立性和信息理论 10
一、统计独立性 10
二、熵及微分熵 11
三、互信息 12
四、峭度 12
第四节 本章小结 13
第三章 独立分量分析及混合语音信号分离 14
第一节 独立分量分析基础 14
一、ICA基本理论概念 14
二、ICA的基本模型 14
三、ICA 数据的预处理 15
(一) 中心化(centering) 15
(二) 白化(whitening) 15
第二节 混合语音信号的分离 16
一、语音混合问题 16
二、语音信号可分离性 16
(一)最小相位系统 17
(二)非最小相位系统 18
三、语音盲分离实现的途径 19
(一)前馈结构 19
(二)反馈结构 19
第三节 独立分量分析(ICA)主要算法的分类与关系 20
一、基于非高斯性的最大化 21
二、基于互信息的最小化 21
三、基于最大似然估计 22
四、三类方法的关系 22
第四节 本章小结 22
第四章 瞬时线性混合信号ICA算法研究与比较 24
第一节 快速固定算法—FastICA算法及改进 24
一、FastICA算法简介 24
二、目标函数 24
三、快速固定点算法推导 25
四、快速固定点算法的改进 26
五、计算机仿真实验与分析 28
第二节 JADE算法及改进 31
一、JADE算法简介 31
二、JADE算法的推导及改进 32
三、JADE算法求解步骤 32
四、计算机仿真实验与分析 33
第三节 两种算法的分析及比较 35
第四节 本章小节 36
第五章 总结与展望 37
第一节 总结 37
第二节 展望 37
参考文献 38
致 谢 40
英文翻译 1
本科毕业设计(论文)任务书 I
第一章 绪论
第一节 盲信号分离研究背景以及意义
盲信号分离(Blind Signal Separation. BSS)是指仅从观测的混合信号(一般是数
个传感器的输出)中恢复独立的源信号,此处的“盲”代表的是:1.源信号是无法观察和测量到的;2.混合系统在测试之前是不可知的。在科研探索与实际应用中,都可以把很多观测信号当作不可见的源信号的混合。盲信号分离研究刚开始的目的是试图处理鸡尾酒会问题,这里所说的“鸡尾酒会”问题就是一个很具有代表性的例子,简单说就是当一个房间里同时有许多人(当作不同的信号源)一起说话时,一组麦克风就把声音信号记录下来,通常所说的观测信号就是麦克风记录的信号,这个信号就是所有人声音的一个混合。问题是:怎么才能把每个人的声音信号(源信号)从这组观测信号中提取出来。假如事先已经知道混合系统,那么上述问题就化为很简单的求混合矩阵的逆矩阵。可是在大多数情况下,有关混合系统的信息人们是无法获得的,人们只能从观测信号中来推测出混合矩阵,实现盲源分离。
盲信号分离的研究工作的实质性进展是从Jutten与Herault提出了反馈神经网络和基于Hebb学习规则的学习算法开始的。随着数字信号处理理论和技术的发展以及相关学科的不断深入研究,盲分离技术已经在多个方面发挥了巨大的应用价值,特别是在以独立分量分析(ICA)为理论依据的特征提取方面的应用可以说是为数据处理及特征提取技术开辟了一个崭新的领域。
本文主要研究的语音盲信号分离问题是盲信号分离技术在语音处理方面的应用,盲信号分离技术较早时期就被应用在语音信号处理领域,即先从多个麦克风采集到相互干扰的混合语音信号,明确好感兴趣的某些信号,然后再通过相应的分离算法将我们感兴趣的语音信号从混合的语音信号中提取出来。这种使用算法使计算机拥有像人类一样分离语音的能力,是当今人工智能研究领域的重要组成部分,目前本文所要研究的语音信号盲分离,虽然还不能实现计算机听觉这一伟大目标,但是可以初步使得原本混叠在一起的语音信号相互剥离开,可以作为语音识别的预处理,从而使得噪声环境下和多数人说话情形下的语音识别有可能实现,从这种层面上看,该课题的研究具有重大意义。除此之外,此项技术将会给我们带来高质量的语音通信,高质量的生物医学图像,高质量的地震信号等,使得我们的生活更加智能化,更加美好,因此近些年来,越来越多的人投身到此项技术的研究阵列中。
第二节 盲信号分离的国内外研究现状
一、盲源分离的发展历史
据了解,法国的J.Herault和C.Jutten是被公认最早开始研究这一技术的人,可考资料显示大概是在1985年左右。
1991年盲源分离技术得到了重大发展,其主要标志是Perier Common,Heraul和Christin Hutten Jeanny等人在Signal Processing期刊上发表的几篇文章。至今非常著名的H-J盲分离算法就是在那时首次提出的。当时他们主要是利用的仿生学思想,基于神经网络理论模仿了耳朵神经系统,之后很多这方面的研究人员都采用了他们的思想。他们为盲分离技术的发展做出了巨大的贡献,为后来研究者找到了一条道路。
而后是独立分量分析理论的诞生,于1995年,Bell和Sejnowski发表了相关的文献,他们主要提出了用非线性特征来消除观测信号的高阶统计关联问题;更创造性的结合了独立分量分析方法和信息论方法,倡导用信息最大化(Infomax)准则建立目标函数;至此,他们还给出了基于神经网络的最优权迭代算法,这种算法后来成为各种算法的研究基础。
在1996年,Amari和eiehoeki基于信息理论中概率密度的Gram-Charlier展开,利用最小互信息 (Minimum Mutual Information,MMI)准则函数,得出一类前馈网络的训练算法。
1997年,Hyvarinen基于源信号的非高斯性测度(仅指峭度),给出了一类定点训练算法(Fixed一Point),该算法可以提取单个具有正或负峭度的源信号[]。当人们从神经网络的方向去研究自适应算法时,所用的随机梯度算法有一个缺点,就是收敛速度比较慢,Cichocki等人提出了自然梯度的概念,自然梯度的学习规则有效性高,计算简便。
1998年,Amari对自然梯度算法做出更深入的探索,并且证明了该算法的有效性。Candoso和Laholdwl利用自适应信号分离必须具有等变化性(equivariant),对应于常规梯度(绝对梯度),得出了相对梯度的概念,这里所用的算法即随机相对梯度算法,经过证明之后此算法是和自然梯度算法等价的,因此等变化性也是自然梯度算法所具有的。为了提高它们的分离效果和速度,许多学者对这类算法进行了大量研究,并且这些学者已经获得了许多行之有效的方法。
1999年,Hyvarinen进一步基于近似负熵给出了一种新的ICA算法,并保留定点迭代
这个名字,称为FastICA算法。FastICA算法具有非常突出的优点,其计算简单,收敛速度快,无需任何步长参数,并且迭代稳定性好,占用内存小,另外可以通过非线性函数的适当选取来找到最优解。近年来,状态空间法获得了长足的发展,在这种方法之中,描述混合矩阵和解混矩阵的角度开始从控制工程的方向出发了,因此盲源分离的探索获得新的方向和思想。
在中国,由于科学技术的限制,对盲源分离的探索相对于外国较晚,直至近几年,国内研究盲源分离的科学家才慢慢增多。1996年,由国内知名清华大学教授张贤达先生撰写的《时间序列分析一高阶统计量方法》一书中,阐述了和盲源分离有关的理论基础,对盲源分离的研究在此之后才慢慢的增多。
1999年,学者张贤达和保铮作出了盲源分离的理论、方法和应用的综合论述。而在上海交大,胡光锐、虞晓等对盲信号处理(BSP)应用到语音分离和识别领域作出了研究,经过分析最大熵算法与最小互信息算法,他们得到了一种不一样的算法,这种算法通过反馈结构的输出信号概率密度函数来估计的增强算法,和传统算法相比较,新算法具有良好的性能,尤其是在处理盲源分离输入信号为卷积混合输入问题。
在东南大学,何振亚、汪军提出以高阶谱为基础的信号盲分离,在研究瞬时混叠信号盲源时,采用三阶和四阶累计量,从中提出了两种分离算法,通过实验证明了它们是有效的,但是,它们的应用条件是高信噪比信号分离。刘丁、刘筱琰等人(2001)以信号二阶累积量特征为根据,提出一种旋转矩阵盲辨识算法。Andras,Zihe等人也以二阶累积量为基础,从最小均方的角度提出另一类对角化算法。其代表算法中的一种是JADE算法.
二、盲源分离的研究现状
盲源分离的研究一直在进行着,对于存在噪声的盲源分离一直存在着困难。目前我们所熟悉的ICA方法并没有考虑噪声的影响,有关ICA的应用也都停留在没有噪声的理想情形下,对于实际环境中存在噪声的混叠语音的分离问题,更需找到有效的含噪模型解决。除此,在非线性混合、非平稳问题和欠定问题上仍有很多难题需要解决。
就目前所出现的技术理论而言,可以将盲分离大致分为两类:其一是关于瞬时混合信号的盲分离,其二是关于卷积后混合信号的盲分离。相比之下,大家对瞬时混合信号盲分离的研究还算比较成功,取得了很多惊人的成果,但是卷积混合语音信号的分离问题仍然让人望而却步,这种卷积混合语音信号往往是在实际环境中由房间的回响和各种反射造成的,因此实现分离相当困难。
至今,许多专注于盲分离技术研究的学者提出了很多的学习算法,在此,本文将这些算法大致归为了三大类:
在第一类方法中,是依靠信号的变换,来最小化不同信号分量之间的相依性(dependency)。这是大家熟知的独立分量分析(ICA)法。当我们选取不同的准则来度量信号之间的独立性时,便可得到不同的算法,其中最为典型的算法当属神经网络方法和矩阵的联合对角化。
第二类方法为熵的最大化方法。在此方法中,输出部分经过非线性传递函数进行变换后,它的分布情况会得以改善,能够保证被一个有限的超立方体所包含;然后在熵的最大化原则下,输出分量将被迫使着尽可能地均匀散布在超立方体中。熵的最大化最终也可以得到信号分量独立性的类似测度。
第三类方法是线性主分量分析方法的一种推广,此方法在正交的约束条件下可以实现信号的分离。我们重新命名此方法为非线性主分量分析(NCPA)法。但是已有人士证明,熵的最大化法与独立分量分析法是等价存在的。
摘要
在当前智能信号处理学科的研究领域中,盲信号处理技术崭露头角,其中,盲分离技术成为主要分支之一。所谓盲信号就是杂乱无章,没有规律可循的信号。盲源分离和盲信号提取是从观测到的盲信号中恢复出纯净的源信号的有效方法。目前这种技术已广泛地应用在通信系统、语音处理、遥感、医学成像、地震探测、地球物理、计量经济学、数据挖掘等领域。
目前,用于盲源分离比较成熟的方法为独立分量分析法(ICA,Independent Components Analysis)。现有的盲信号处理的算法,大都是基于独立分量分析的,通过对ICA的研究就可以把这些算法统一起来,所以本文基于前人的基础,研究了独立分量分析方法及算法在语音信号分离方面的应用,并着重介绍了快速固定算法和JADE算法,探讨了其改进方法。
论文首先介绍了盲信号分离的基本知识,包括BBS和ICA基本原理、数学模型、研究进展等。了解了信息统计理论相关知识后,对基于ICA的算法进行了简单的分类和概括性的解释。最后着重研究了FastICA快速固定算法及JADE算法,给出了详细的推导,提出了可行的改进方案,以上方法均用计算机进行了有效的仿真,并得到有效的分离结果。根据仿真过程和波形,对两种算法进行了简单的分析与比较。
查看完整论文请+Q: 351916072
关键字:盲信号处理语音信号分离ICAFastICA算法JADE算法
Key Words:Blind Signal Processing,Speech signal separation,ICA, FastICA algorithm, JADE algorithm 目 录
摘要 I
ABSTRACT II
第一章 绪论 1
第一节 盲信号分离研究背景以及意义 1
第二节 盲信号分离的国内外研究现状 2
一、盲源分离的发展历史 2
二、盲源分离的研究现状 3
第三节 盲信号分离的应用及前景 5
第四节 本文的主要研究内容以及章节安排 5
第二章 盲信号分离基本理论知识 7
第一节 盲信号分离的原理 7
第二节 盲信号分离的主要数学模型 7
一、瞬时线性混合模型 7
二、卷积混合模型 8
三、非线性混合模型 9
(一)一般非线性模型 9
(二)后非线性模型 10
第三节 统计独立性和信息理论 10
一、统计独立性 10
二、熵及微分熵 11
三、互信息 12
四、峭度 12
第四节 本章小结 13
第三章 独立分量分析及混合语音信号分离 14
第一节 独立分量分析基础 14
一、ICA基本理论概念 14
二、ICA的基本模型 14
三、ICA 数据的预处理 15
(一) 中心化(centering) 15
(二) 白化(whitening) 15
第二节 混合语音信号的分离 16
一、语音混合问题 16
二、语音信号可分离性 16
(一)最小相位系统 17
(二)非最小相位系统 18
三、语音盲分离实现的途径 19
(一)前馈结构 19
(二)反馈结构 19
第三节 独立分量分析(ICA)主要算法的分类与关系 20
一、基于非高斯性的最大化 21
二、基于互信息的最小化 21
三、基于最大似然估计 22
四、三类方法的关系 22
第四节 本章小结 22
第四章 瞬时线性混合信号ICA算法研究与比较 24
第一节 快速固定算法—FastICA算法及改进 24
一、FastICA算法简介 24
二、目标函数 24
三、快速固定点算法推导 25
四、快速固定点算法的改进 26
五、计算机仿真实验与分析 28
第二节 JADE算法及改进 31
一、JADE算法简介 31
二、JADE算法的推导及改进 32
三、JADE算法求解步骤 32
四、计算机仿真实验与分析 33
第三节 两种算法的分析及比较 35
第四节 本章小节 36
第五章 总结与展望 37
第一节 总结 37
第二节 展望 37
参考文献 38
致 谢 40
英文翻译 1
本科毕业设计(论文)任务书 I
第一章 绪论
第一节 盲信号分离研究背景以及意义
盲信号分离(Blind Signal Separation. BSS)是指仅从观测的混合信号(一般是数
个传感器的输出)中恢复独立的源信号,此处的“盲”代表的是:1.源信号是无法观察和测量到的;2.混合系统在测试之前是不可知的。在科研探索与实际应用中,都可以把很多观测信号当作不可见的源信号的混合。盲信号分离研究刚开始的目的是试图处理鸡尾酒会问题,这里所说的“鸡尾酒会”问题就是一个很具有代表性的例子,简单说就是当一个房间里同时有许多人(当作不同的信号源)一起说话时,一组麦克风就把声音信号记录下来,通常所说的观测信号就是麦克风记录的信号,这个信号就是所有人声音的一个混合。问题是:怎么才能把每个人的声音信号(源信号)从这组观测信号中提取出来。假如事先已经知道混合系统,那么上述问题就化为很简单的求混合矩阵的逆矩阵。可是在大多数情况下,有关混合系统的信息人们是无法获得的,人们只能从观测信号中来推测出混合矩阵,实现盲源分离。
盲信号分离的研究工作的实质性进展是从Jutten与Herault提出了反馈神经网络和基于Hebb学习规则的学习算法开始的。随着数字信号处理理论和技术的发展以及相关学科的不断深入研究,盲分离技术已经在多个方面发挥了巨大的应用价值,特别是在以独立分量分析(ICA)为理论依据的特征提取方面的应用可以说是为数据处理及特征提取技术开辟了一个崭新的领域。
本文主要研究的语音盲信号分离问题是盲信号分离技术在语音处理方面的应用,盲信号分离技术较早时期就被应用在语音信号处理领域,即先从多个麦克风采集到相互干扰的混合语音信号,明确好感兴趣的某些信号,然后再通过相应的分离算法将我们感兴趣的语音信号从混合的语音信号中提取出来。这种使用算法使计算机拥有像人类一样分离语音的能力,是当今人工智能研究领域的重要组成部分,目前本文所要研究的语音信号盲分离,虽然还不能实现计算机听觉这一伟大目标,但是可以初步使得原本混叠在一起的语音信号相互剥离开,可以作为语音识别的预处理,从而使得噪声环境下和多数人说话情形下的语音识别有可能实现,从这种层面上看,该课题的研究具有重大意义。除此之外,此项技术将会给我们带来高质量的语音通信,高质量的生物医学图像,高质量的地震信号等,使得我们的生活更加智能化,更加美好,因此近些年来,越来越多的人投身到此项技术的研究阵列中。
第二节 盲信号分离的国内外研究现状
一、盲源分离的发展历史
据了解,法国的J.Herault和C.Jutten是被公认最早开始研究这一技术的人,可考资料显示大概是在1985年左右。
1991年盲源分离技术得到了重大发展,其主要标志是Perier Common,Heraul和Christin Hutten Jeanny等人在Signal Processing期刊上发表的几篇文章。至今非常著名的H-J盲分离算法就是在那时首次提出的。当时他们主要是利用的仿生学思想,基于神经网络理论模仿了耳朵神经系统,之后很多这方面的研究人员都采用了他们的思想。他们为盲分离技术的发展做出了巨大的贡献,为后来研究者找到了一条道路。
而后是独立分量分析理论的诞生,于1995年,Bell和Sejnowski发表了相关的文献,他们主要提出了用非线性特征来消除观测信号的高阶统计关联问题;更创造性的结合了独立分量分析方法和信息论方法,倡导用信息最大化(Infomax)准则建立目标函数;至此,他们还给出了基于神经网络的最优权迭代算法,这种算法后来成为各种算法的研究基础。
在1996年,Amari和eiehoeki基于信息理论中概率密度的Gram-Charlier展开,利用最小互信息 (Minimum Mutual Information,MMI)准则函数,得出一类前馈网络的训练算法。
1997年,Hyvarinen基于源信号的非高斯性测度(仅指峭度),给出了一类定点训练算法(Fixed一Point),该算法可以提取单个具有正或负峭度的源信号[]。当人们从神经网络的方向去研究自适应算法时,所用的随机梯度算法有一个缺点,就是收敛速度比较慢,Cichocki等人提出了自然梯度的概念,自然梯度的学习规则有效性高,计算简便。
1998年,Amari对自然梯度算法做出更深入的探索,并且证明了该算法的有效性。Candoso和Laholdwl利用自适应信号分离必须具有等变化性(equivariant),对应于常规梯度(绝对梯度),得出了相对梯度的概念,这里所用的算法即随机相对梯度算法,经过证明之后此算法是和自然梯度算法等价的,因此等变化性也是自然梯度算法所具有的。为了提高它们的分离效果和速度,许多学者对这类算法进行了大量研究,并且这些学者已经获得了许多行之有效的方法。
1999年,Hyvarinen进一步基于近似负熵给出了一种新的ICA算法,并保留定点迭代
这个名字,称为FastICA算法。FastICA算法具有非常突出的优点,其计算简单,收敛速度快,无需任何步长参数,并且迭代稳定性好,占用内存小,另外可以通过非线性函数的适当选取来找到最优解。近年来,状态空间法获得了长足的发展,在这种方法之中,描述混合矩阵和解混矩阵的角度开始从控制工程的方向出发了,因此盲源分离的探索获得新的方向和思想。
在中国,由于科学技术的限制,对盲源分离的探索相对于外国较晚,直至近几年,国内研究盲源分离的科学家才慢慢增多。1996年,由国内知名清华大学教授张贤达先生撰写的《时间序列分析一高阶统计量方法》一书中,阐述了和盲源分离有关的理论基础,对盲源分离的研究在此之后才慢慢的增多。
1999年,学者张贤达和保铮作出了盲源分离的理论、方法和应用的综合论述。而在上海交大,胡光锐、虞晓等对盲信号处理(BSP)应用到语音分离和识别领域作出了研究,经过分析最大熵算法与最小互信息算法,他们得到了一种不一样的算法,这种算法通过反馈结构的输出信号概率密度函数来估计的增强算法,和传统算法相比较,新算法具有良好的性能,尤其是在处理盲源分离输入信号为卷积混合输入问题。
在东南大学,何振亚、汪军提出以高阶谱为基础的信号盲分离,在研究瞬时混叠信号盲源时,采用三阶和四阶累计量,从中提出了两种分离算法,通过实验证明了它们是有效的,但是,它们的应用条件是高信噪比信号分离。刘丁、刘筱琰等人(2001)以信号二阶累积量特征为根据,提出一种旋转矩阵盲辨识算法。Andras,Zihe等人也以二阶累积量为基础,从最小均方的角度提出另一类对角化算法。其代表算法中的一种是JADE算法.
二、盲源分离的研究现状
盲源分离的研究一直在进行着,对于存在噪声的盲源分离一直存在着困难。目前我们所熟悉的ICA方法并没有考虑噪声的影响,有关ICA的应用也都停留在没有噪声的理想情形下,对于实际环境中存在噪声的混叠语音的分离问题,更需找到有效的含噪模型解决。除此,在非线性混合、非平稳问题和欠定问题上仍有很多难题需要解决。
就目前所出现的技术理论而言,可以将盲分离大致分为两类:其一是关于瞬时混合信号的盲分离,其二是关于卷积后混合信号的盲分离。相比之下,大家对瞬时混合信号盲分离的研究还算比较成功,取得了很多惊人的成果,但是卷积混合语音信号的分离问题仍然让人望而却步,这种卷积混合语音信号往往是在实际环境中由房间的回响和各种反射造成的,因此实现分离相当困难。
至今,许多专注于盲分离技术研究的学者提出了很多的学习算法,在此,本文将这些算法大致归为了三大类:
在第一类方法中,是依靠信号的变换,来最小化不同信号分量之间的相依性(dependency)。这是大家熟知的独立分量分析(ICA)法。当我们选取不同的准则来度量信号之间的独立性时,便可得到不同的算法,其中最为典型的算法当属神经网络方法和矩阵的联合对角化。
第二类方法为熵的最大化方法。在此方法中,输出部分经过非线性传递函数进行变换后,它的分布情况会得以改善,能够保证被一个有限的超立方体所包含;然后在熵的最大化原则下,输出分量将被迫使着尽可能地均匀散布在超立方体中。熵的最大化最终也可以得到信号分量独立性的类似测度。
第三类方法是线性主分量分析方法的一种推广,此方法在正交的约束条件下可以实现信号的分离。我们重新命名此方法为非线性主分量分析(NCPA)法。但是已有人士证明,熵的最大化法与独立分量分析法是等价存在的。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/2260.html