语音情感PSOLA算法研究与实现

语音情感PSOLA算法研究与实现
本研究重点介绍了基音同步叠加算法(PSOLA),并在该算法的基础上提出用情感基音模板叠加的方法合成情感语音。该方法以情感基音模板为合成单元,根据合成音节的声调以及情感特征参数的统计规律合成情感语音。在此基础上,构建了情感语音合成系统,与传统的合成方法相比,合成的语音音质清晰,更富有情感色彩,而且方法简单,提高了人机交互的能力。20190816165357
关键词:语音合成 ,情感语音合成,情感语音理论
语音的震动频率决定了语音信号的基频F0,F0与语音的基频有关,研究表明基音频率是反映情感信息的重要特征之一。语音的振动产生了谐波谱,它通过鼻和口时会经过滤波,于是产生一个复杂的时变谱。研究者考虑到当同一个人发出的带有不同情感而内容相同的语句时,其声道会有不同的变化,而共振峰频率与声道的大小和形状有关,每种形状都会有一套共振峰频率作为特征。因此,共振峰频率也是表达情感的特征参数之一。一般在语音研究中使用的主要特征参数包括以下内容[1],由于这些参数得到了大量的研究,人们对他们在不同的情感下的作用基本上具有相同的认识,因此在多数的研究文献中得到普遍采用。不同的情感在实际情况中相对应的是不同的语音声道特征和激励源的统计特征。而通过研究,有情感和语音参数的关系如表2.2所示。

 

喜悦

悲伤

愤怒

清晰度

正常

含糊

含糊

语速

快或者慢

基音变化率

光滑

向下弯曲

重音处突变

平均基音

很高

极高

略低

声音质量

有呼吸声,共鸣音调

有共鸣声

有呼吸声,胸腔声

强度

基音范围

2.2分析情感语音的声学特征
2.2.1听者实验
对情感特征进行分析需要满足严格条件的情感语料,首先这些语音样本必须是同一个朗读者的发音,并且要求情感尽量真实。本研究中,我们邀请了一位情感表现力强的女性朗读者,让她朗读预先设计好的九句话。这些句子长度五到九个字,选取时尽量避免那些本身带有明显情感词的内容,这既方便朗读者能以四种语气完成句子朗读,又不至于对后面的语音样本筛选产生先入为主的影响。尽管如此,对于有些句子要朗读出某种情感还是有些牵强。为了达到情感尽量真实的目的,我们给出一个方案,说明哪些句子哪些情感不需要实现,哪些情感可根据自己情感把握实现,哪些情感应该尽量实现。同时,对每个句子的每种情感我们还设计了语境参考句,用来诱导朗读者自然的情感流露。九个句子及它们的情感说明如表2.3。

 

喜悦

中性

悲伤

愤怒

今天是晴天

OK

OK

OK

OK

我能帮你吗?

OK

OK

OK

OK

没有什么比生命重要

OK

OK

OK

OK

这件事我告诉过你

OK

OK

OK

OK

现在几点?

OK

OK

OK

OK

刚才老师过来找你

OK

OK

OK

OK

你丢东西了没有?

OK

OK

OK

OK

上课记得带笔记本

OK

OK

OK

OK

你在门口等我一下

OK

OK

OK

OK

我们要求朗读者朗读时尽量在同一环境、同一时间段内录制,保持声音大小的稳定,不要带入气流声并且保持嘴部和麦克风的距离。听者测试,我们请到5名同学(有男有女),让他们随机听取以上36句情感语音,根据自己的听觉感受判断该句话的情感。由于对听者要求最好是与本研究无关人员,为了方便邀请人员参加本实验,我们设计一个测试软件,界面如图2.1所示。听者首先点击“Read Speech File”,选取所要听取的情感语音样本,听取与重复听取时点击“Play Sound”,再针对此句选择相应的“Emotion Recognition”,看自己听到的是否符合标准,对下一句语音进行同样操作,最后点击“Waveform Display”即可。软件在自动统计每句情感语音样本的情感判断率,并为每位试听者更新当前情感语音样本的正确率,最后得到一个累积值。
我们定义的交叉错误率(CER)是:CER=(被判定为其他情感的次数)/(总的判定数)。
摘 要    I
ABSTRACT    II
第一章  绪论    1
1.1 课题的研究背景及意义    1
1.2情感语音合成的技术难度与挑战    2
1.3 情感语音合成    3
1.3.1 语音合成    3
1.3.2 情感语音计算    5
1.4本文研究的主要内容和结构    6
第二章 情感语音与语音的情感理论    8
2.1 语音的情感特征    8
2.2分析情感语音的声学特征    9
2.2.1听者实验    9
2.2.2 情感语音的频谱参数和韵律特征    10
2.3 语音情感的定义与交流    12
2.4 语音情感的分类    13
2.5 本章小结    15
第三章 情感语音的基频模型与参数提取    16
3.1 完善韵律模型    16
3.2 基频模型    17
3.3 基频的研究    18
3.3.1 基频提取的研究难点    18
3.3.2 研究算法的选择    19
3.4 情感语音参数提取    19
3.4.1 基频    19
3.4.2 时长    23
3.4.3 强度    23
3.4.4 其他语音波形    24
3.5 本章小结    25
第四章   情感语音算法研究与实现    26
4.1 PSOLA(基音同步叠加算法)算法介绍    26
4.2 基于情感基音叠加的情感语音的合成    30
4.2.1  语音合成系统的架构    30
4.2.2 情感语音合成系统中声调函数的建立    32
4.2.3  情感语音合成系统中韵律参数的赋值    34
4.3  本章小结    36
第五章 情感语音合成系统实现与性能分析    37
5.1 语音合成系统    37
5.1.1 语音合成系统流程图    37
5.1.2 语音合成系统的功能模块    38
5.1.3 演示及实验结果    39
5.2 系统性能评价    40
5.3 本章小结    42
第六章 总结与展望    44
致谢    46
参考文献    47
附录    50

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/2162.html

好棒文