基于正弦模型的语音合成算法研究
基于正弦模型的语音合成算法研究[20191212180255]
摘要
语音合成技术作为人机语音通信的关键技术和计算机研究的主导方向,一直受到各国科学界的关注。如今,随着语音合成技术研究的发展,该技术在计算机发展和社会生活方面的重要性日益凸现出来。目前,被提出的语音合成算法有许多,但每一种方法都有它的缺陷存在。论文主要对基于正弦模型语音合成算法进行研究。
论文首先介绍了正弦模型算法的研究背景及发展现状。其次,对基于正弦模型的语音合成中涉及的理论知识作了较详细的介绍,主要包括语音信号的基础知识、matlab软件以及正弦模型算法的基本思想。其中,根据仿真结果,着重分析了影响正弦模型合成效果的因素。
在理论分析的基础上,论文还完成了对上述算法的程序设计,并利用MATLAB2009对上述算法进行仿真实验。
查看完整论文请+Q: 351916072
关键字:正弦模型;合成;MATLAB
目录
摘要 III
ABSTRACT IV
目录 V
第一章 绪论 1
一、引言 1
二、课题介绍 2
(一)课题研究背景 2
(二)国内外语音合成技术发展现状 3
(三)语音合成发展方向 4
(四)课题主要内容 5
(五)论文章节安排 6
第二章 语音的基础知识 7
一、语音信号的产生 7
二、语音的波形特征 8
三、语音的时域分析和频域分析 8
第三章 matlab软件开发平台 11
一、MATLAB主要功能 11
二、MATLAB系统简介 11
(一)开发环境 11
(二)数学函数库 11
(三)语言 12
(四)图形处理系统 12
(五)应用程序接口 12
四、MATLAB应用 12
五、语音信号处理常用函数(Matlab内部常数) 13
第四章 语音信号的正弦模型处理及程序实现 15
一、正弦模型的参数估计 15
二、语音信号的正弦分解 16
三、频率匹配 18
四、正弦参数的合成 18
五、均方误差计算 19
六、程序具体实现步骤 19
第五章 仿真效果图 22
一、合成效果图 22
二、研究影响正弦模型合成效果的因素 23
总结 29
参考文献 30
致 谢 31
附录:MATLAB程序源代码 32
一、测试程序: 32
二、正弦分析与合成程序 33
第一章 绪论
一、引言
语音是语言的声学表现,是人类相互之间进行信息交流最自然、最有效、最方便的手段。随着现代信息科学技术的飞速发展,计算机网络技术的日益普及和完善,人类开始进入信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息。目前,语音信号处理的一系列技术及其应用已经成为信息社会中不可或缺的重要组成部分,对促进信息社会发展有着十分重要的意义[1]。
语音合成,即文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理 、计算机科学 等多个学科技术,是中文信息处理 领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机 ,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储 、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。
文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解 的问题。 文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一步涉及语言学 处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学 知识的支持。
二、课题介绍
(一)课题研究背景
语言合成或者让计算机说话包含着二个方面的可能性:
一种可能是特定的机器能生成一个事先输入的语音信号,就像普通的录音机一样,不同的地方只是在它采用了数字存储技术;简单地将事先输入的单音或词组拼接起来也可以让机器开口,但是机器味十足,人们很难接受。然而如果事先输入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,就有可能产生自然度很高的语句,这就是波形拼接的语音合成方法。为了节省存储容量,可以对语音信号进行数据压缩。
另一种可能是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音. 调整滤波器的参数等效于改变口腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期或强度,将改变合成语音的音调、重音等. 因此,只要正确控制激励源和滤波器参数(一般每隔10~30ms送一组),这个模型就能灵活地合成出各种语句来,因此又称作为参数合成的方法。根据时变滤波器的结构形式不同,又有LPC合成和共振峰合成器等之分。
按照人类言语功能的不同层次,语言合成也可分成三个层次,它们是:(1)从文字到语音的合成(Text-To-Speech);(2)从概念到语音的合成(Concept-To-Speech);(3)从意向到语音的合成(Intention-To-Speech)。这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动。
为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题。从这一点讲,文语转换系统实际上也可看作一个人工智能系统。
一般说来,文语合成系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。当然其中语音合成终究还是最基本的部分,它相当于“人工嘴巴”,任何语言合成系统包括文语转换系统,都离不开语音合成器。
(二)国内外语音合成技术发展现状
语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。
在语音合成技术的发展中,早期的研究主要是采用了参数合成方法。值得提及的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只要精心调整参数,这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk(1987)。但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。
自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(PSOLA)方法的提出(1990),使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实现,有很大的商用前景。?
但是,PSOLA的算法会引起语音频谱的不连续, 从而影响合成语音的质量,而正弦模型合成的语音信号的各个正弦波分量的相位和幅值均能平滑过渡, 从而可以克服 PSOLA 的算法带来的回声效应,有助于提高合成以后的语音的自然度。
正弦模型的语音分析方法是由R.J.MAculya和Thomas.F.Quatieri在1986年的一篇论文中提出的。
该论文系统地阐述了基于正弦模型的语音分析合成方法。在该方法提出前,许多学者以正弦为基础进行了相关研究,或对该方法进行了各种改进,将其应用到语音信号处理的各个领域。本文主要利用正弦模型来进行语音合成,把语音信号看成是一系列正弦波的叠加,对语音信号进行正弦模型建模,提取正弦模型所需参数,利用这些参数合成一段新的语音。经试验结果证明,该方法合成的语音信号的各个正弦波分量的相位和幅值均能平滑过渡,合成更高自然度的语音信号。
(三)语音合成发展方向
1. 提高合成语音的自然度
提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。
2 丰富合成语音的表现力
目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上。即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的高级神经活动。但就语音合成来说,仍是一个要丰富合成语音的表现力问题。相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限。更为有效的办法是采用参数合成法,分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化,由于这种改变是连续的,对象特征可以千千万万,显得更有生命力。近年来提出的基于LMA(对数振幅近似)技术的语音合成器,Hybrid Harmonic/Stochastic 模型 , Sinusoidal 模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破。
3 降低语音合成技术的复杂度
语音合成技术正在走向市场。为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方。就目前汉语文语转换系统而言,减小音库容量就是一个重要课题。目前高质量的汉语文语转换系统一般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以PC机或工作站为硬件平台的应用中是没有问题的,而对于象HPC, PDA及无线通信手机,商务通等资源有限的设备上就没法承受。解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音素、半音节,以及减少合成语音所需的音节基元数等等。然而又不能增加算法的复杂度,因为运算量及系统开销同样会直接影响汉语语音合成的应用。既要提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面[7]。
4 多语种文语合成
摘要
语音合成技术作为人机语音通信的关键技术和计算机研究的主导方向,一直受到各国科学界的关注。如今,随着语音合成技术研究的发展,该技术在计算机发展和社会生活方面的重要性日益凸现出来。目前,被提出的语音合成算法有许多,但每一种方法都有它的缺陷存在。论文主要对基于正弦模型语音合成算法进行研究。
论文首先介绍了正弦模型算法的研究背景及发展现状。其次,对基于正弦模型的语音合成中涉及的理论知识作了较详细的介绍,主要包括语音信号的基础知识、matlab软件以及正弦模型算法的基本思想。其中,根据仿真结果,着重分析了影响正弦模型合成效果的因素。
在理论分析的基础上,论文还完成了对上述算法的程序设计,并利用MATLAB2009对上述算法进行仿真实验。
查看完整论文请+Q: 351916072
关键字:正弦模型;合成;MATLAB
目录
摘要 III
ABSTRACT IV
目录 V
第一章 绪论 1
一、引言 1
二、课题介绍 2
(一)课题研究背景 2
(二)国内外语音合成技术发展现状 3
(三)语音合成发展方向 4
(四)课题主要内容 5
(五)论文章节安排 6
第二章 语音的基础知识 7
一、语音信号的产生 7
二、语音的波形特征 8
三、语音的时域分析和频域分析 8
第三章 matlab软件开发平台 11
一、MATLAB主要功能 11
二、MATLAB系统简介 11
(一)开发环境 11
(二)数学函数库 11
(三)语言 12
(四)图形处理系统 12
(五)应用程序接口 12
四、MATLAB应用 12
五、语音信号处理常用函数(Matlab内部常数) 13
第四章 语音信号的正弦模型处理及程序实现 15
一、正弦模型的参数估计 15
二、语音信号的正弦分解 16
三、频率匹配 18
四、正弦参数的合成 18
五、均方误差计算 19
六、程序具体实现步骤 19
第五章 仿真效果图 22
一、合成效果图 22
二、研究影响正弦模型合成效果的因素 23
总结 29
参考文献 30
致 谢 31
附录:MATLAB程序源代码 32
一、测试程序: 32
二、正弦分析与合成程序 33
第一章 绪论
一、引言
语音是语言的声学表现,是人类相互之间进行信息交流最自然、最有效、最方便的手段。随着现代信息科学技术的飞速发展,计算机网络技术的日益普及和完善,人类开始进入信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息。目前,语音信号处理的一系列技术及其应用已经成为信息社会中不可或缺的重要组成部分,对促进信息社会发展有着十分重要的意义[1]。
语音合成,即文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学
文语转换系统实际上可以看作是一个人工智能系统
二、课题介绍
(一)课题研究背景
语言合成或者让计算机说话包含着二个方面的可能性:
一种可能是特定的机器能生成一个事先输入的语音信号,就像普通的录音机一样,不同的地方只是在它采用了数字存储技术;简单地将事先输入的单音或词组拼接起来也可以让机器开口,但是机器味十足,人们很难接受。然而如果事先输入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,就有可能产生自然度很高的语句,这就是波形拼接的语音合成方法。为了节省存储容量,可以对语音信号进行数据压缩。
另一种可能是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音. 调整滤波器的参数等效于改变口腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期或强度,将改变合成语音的音调、重音等. 因此,只要正确控制激励源和滤波器参数(一般每隔10~30ms送一组),这个模型就能灵活地合成出各种语句来,因此又称作为参数合成的方法。根据时变滤波器的结构形式不同,又有LPC合成和共振峰合成器等之分。
按照人类言语功能的不同层次,语言合成也可分成三个层次,它们是:(1)从文字到语音的合成(Text-To-Speech);(2)从概念到语音的合成(Concept-To-Speech);(3)从意向到语音的合成(Intention-To-Speech)。这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动。
为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题。从这一点讲,文语转换系统实际上也可看作一个人工智能系统。
一般说来,文语合成系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。当然其中语音合成终究还是最基本的部分,它相当于“人工嘴巴”,任何语言合成系统包括文语转换系统,都离不开语音合成器。
(二)国内外语音合成技术发展现状
语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。
在语音合成技术的发展中,早期的研究主要是采用了参数合成方法。值得提及的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只要精心调整参数,这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk(1987)。但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。
自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(PSOLA)方法的提出(1990),使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实现,有很大的商用前景。?
但是,PSOLA的算法会引起语音频谱的不连续, 从而影响合成语音的质量,而正弦模型合成的语音信号的各个正弦波分量的相位和幅值均能平滑过渡, 从而可以克服 PSOLA 的算法带来的回声效应,有助于提高合成以后的语音的自然度。
正弦模型的语音分析方法是由R.J.MAculya和Thomas.F.Quatieri在1986年的一篇论文中提出的。
该论文系统地阐述了基于正弦模型的语音分析合成方法。在该方法提出前,许多学者以正弦为基础进行了相关研究,或对该方法进行了各种改进,将其应用到语音信号处理的各个领域。本文主要利用正弦模型来进行语音合成,把语音信号看成是一系列正弦波的叠加,对语音信号进行正弦模型建模,提取正弦模型所需参数,利用这些参数合成一段新的语音。经试验结果证明,该方法合成的语音信号的各个正弦波分量的相位和幅值均能平滑过渡,合成更高自然度的语音信号。
(三)语音合成发展方向
1. 提高合成语音的自然度
提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。
2 丰富合成语音的表现力
目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上。即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的高级神经活动。但就语音合成来说,仍是一个要丰富合成语音的表现力问题。相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限。更为有效的办法是采用参数合成法,分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化,由于这种改变是连续的,对象特征可以千千万万,显得更有生命力。近年来提出的基于LMA(对数振幅近似)技术的语音合成器,Hybrid Harmonic/Stochastic 模型 , Sinusoidal 模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破。
3 降低语音合成技术的复杂度
语音合成技术正在走向市场。为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方。就目前汉语文语转换系统而言,减小音库容量就是一个重要课题。目前高质量的汉语文语转换系统一般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以PC机或工作站为硬件平台的应用中是没有问题的,而对于象HPC, PDA及无线通信手机,商务通等资源有限的设备上就没法承受。解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音素、半音节,以及减少合成语音所需的音节基元数等等。然而又不能增加算法的复杂度,因为运算量及系统开销同样会直接影响汉语语音合成的应用。既要提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面[7]。
4 多语种文语合成
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/gdxx/478.html