随机森林的语音情感识别研究(附件)

语言是人类交流思想和沟通的最为重要和直接的方式,语音作为语义的传递载体,其中包含了许多有用的信息,除了字面信息还有说话者的情感信息。如何从语音信号中分辨出说话者表达的情感已然成为了当前热门的研究方向。目前,提高语音情感识别率的方法主要有两个一是优化语音信号特征值的提取方式,二是优化分类算法。本设计主要是使用CASIA情感语料库中的录音,针对不同文本和相同文本将录音分为特定人语音情感识别、非特定人语音情感识别和不同性别语音情感识别,按照IS09特征集使用opensmile软件进行特征值的提取,提取出的数据先进行归一化和降维,再利用随机森林算法识别语音中的愤怒、恐惧、高兴、中性、悲伤和惊讶这六种情感,最后通过调整随机森林的关于迭代次数和属性选择的一些参数来提高语音情感识别率。关键词 语音情感识别,随机森林,特征提取
目 录
1 绪论 1
1.1 课题研究背景及意义 1
1.2 课题研究现状 1
1.3 文章内容结构 4
2 语音情感识别理论 4
2.1 语音信号预处理 5
2.2 语音情感特征值提取 7
2.3 语音情感特征降维 7
2.4 语音情感分类算法 8
3 随机森林算法 9
3.1 Bagging算法 9
3.2 CART算法 10
3.3 随机森林 10
4 实验软件准备 12
4.1 opensmile软件 12
4.2 IS09特征集 15
4.3 weka软件 16
4.4 CASIA情感语料库 19
5 实验结果及分析 19
5.1 kflod交叉验证 19
5.2 参数介绍 20
5.3 实验结果及分析 21
5.4 模型性能评价 29
结论 30
致谢 31
参考文献 32
1 绪论
1.1 课题研究背景及意义
随着信息时代的到来,人机交互技术(Human Machine Interaction)开始兴起,使得人们的生活越来越便利 *好棒文|www.hbsrm.com +Q: &351916072& 
。在各个领域,计算机都在帮助人们完成许多人类无法完成的工作,大大推动了社会的进步。因此,人机交互这项技术正在被越来越多的学者关注着。
在第一台电脑被发明出来直到个人PC被广泛使用,人们就一直在向计算机能够听懂人类语言的梦想靠近,这也是相关研究者至今为止仍在关注的研究领域。随着计算机带给人类越来越多的便捷,随着人类发现的问题日益复杂,计算环境日益复杂,人类越来越急切地渴望能够摆脱机械式的输入设备,换成语音输入这样更加便捷的、快速的、贴近生活的输入方式[1]。在人机交互领域,语音识别技术已然成为了一个十分重要的研究方向,其追溯至今已经有66年的研究历史[2]。在日常生活中,语言是人们沟通的直接方式,也是最常用的方式。同时,语音因为它的方便性也可以不需要任何外在辅助的特殊终端,如交互终端等而直接实现人机交互的重要形式。相对于现在非常依赖于各种特殊界面和终端的人机交互方式,基于语音的人机交互技术在未来具有无限发展潜力。
人机交互技术正在越来越成熟,人们希望计算机可以更了解人类,这种了解不仅包括对于人类语义的了解,更是对于人类情感的了解。当我们在进行人机交互时,最需要考虑进去的因素和我们平时与人交流的重要问题是一样的,最主要的是能够同人类一样自动识别出说话者情感的能力[3]。简单来说,如果计算机能够通过一些训练器的训练,掌握和理解人类语音中所包含的情感信息,并且能像人类一样表达这种感情,那么人类就能和计算机进行和谐、生动的交流。语音情感识别,简单来说就是把语音信号中与情感相关的特征向量用软件提取出来,并分析相应的特征参数来识别说话者的情感状态,这是最近几年发展得非常快的新兴研究领域,也是当前关于识别模式和信号处理这些方面新的研究方向[4]。语音情感识别与许多的学科都有密切联系,并且它正在向更多的方向延伸 [5]。
1.2 课题研究现状
1.2.1 语音情感识别研究国内外现状
当“情感计算”这个想法在97年被美国MIT的Picard教授提出之后,全球各地就有许多学者开始着手在各个领域对于“情感计算”这个课题开展了大量的研究工作 [6]。早在19年的时候有关语音情感的一些论文问世后,有关语音情感的研究就开始了。费尔班克斯等学者在对于语音情感进行深入研究之后他们发现语音信号在人类日常表达情感及人们互相沟通时具有重要地位,声音中的情感表达的强大影响力[7,8]。语音情感识别系统主要由前和后两部分组成。前面部分主要用于提取特征参数,后面一部分基于这些特征参数来设计分类器。到目前为止,绝大多数的关于语音的研究项目中,隐马尔科夫模型和支持向量机是最常用到的分类器。到现在为止,语音情感识别的需要重点研究的部分还是情感参数提取这一块。虽然研究的道路充满了困难和障碍,但是随着科学技术和各科学领域的发展,以语音信号为基础的情感识别研究,在人机交互领域中,无论是在理论上还是实际应用中都取得了巨大的突破。
由Rosalind W Picard教授领导的情感研究组织首次在美国的MIT媒体实验室尝试过用一些有关声音的参数来合成一段有情感的语音,其中包括基音频率、振幅和音调等参数。她猜想有关声音的参数与语音中的情感状态有某些关联,于是她进行了实验,并且验证了悲伤这种情绪最容易被分辨出来,而愤怒、害怕、惊讶和高兴等情绪因为其语音特征参数相仿,所以不容易被区分开[9]。
英国科学家J.Nicholson和R.Nakatsu等人曾对语速较为平稳的大型语音情感数据库进行过识别,他们使用神经网络的算法一共识别出了8种情感,实验结果显示对于各类情感的平均辨别率超过50%[9]。
Hicham Atassi等人利用Gaussian Mixture Models(GMM)说话识别模型识别了非人为录制的COST 2012情感语料库,这个情感语料库是将意大利电影中的声音剪辑出来的。他们通过实验识别出了惊讶,高兴,害怕,讽刺等六种情感,平均的识别率达到了60.7%[10]。
近些年来,opensmile被开发出来,这是一种开放式的工具包,面向公众,主要是针对语音情感特征参数的提取。openSMILE实现了语音情感中的特征值的批量提取,如振幅能量、基音频率、时间长度、MFCC等在内,并逐渐得到认可[11]。
国内也已经有许多高校的学者从事语音情感识别方面的研究,如东南大学、清华大学、浙江大学、中国科学院等,都取得了较为乐观的进展。
东南大学的赵力等人对于四种情绪——高兴(happy),生气(angry),伤心(sad)和惊奇(surprise)进行了分类,首先以人耳来听刚录制的包含情感信息的语音信号,如果人耳没有办法识别出录制者当时的情感状态,就再次录制。对于录制成果的语音信号,他们用三种主元素分析法辨别录音中的情感,并得到了80%以上的识别率,然后又分析了这些语音信号的特征,包括基音频率、振幅能量等参数 [12]。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/683.html

好棒文