语音情感特征参数的提取与研究(附件)
人工智能是21世纪科研工作者研究的的热门课题,而作为人工智能技术的重要组成部分的语音情感识技术别更是受到人们的重视。依托计算机技术的高速发展人机交互日益紧密,人们不仅希望能以更方便、更高效、更自然的方式操纵计算机而且还希望计算机能理解人的情感,在此研究潮流下本文对语音情感特征参数进行了提取与研究。本文语音材料选取自柏林语音库并从其中抽取含有“高兴”、“悲伤”、“平静”三种情感的语句。本课题研究提取了ZCR、F(0)、能量和MFCC四个特征并分析了特征与情感之间的关系,最后利用J48算法这三类情感特征进行情感语音的识别,取得了较好的效果。关键词:语音情感特征,语音识别,J48算法目录
1 引言 1
1.1 语音情感识别的历史回顾 1
1.3 语音情感识别技术的应用 2
1.4 语音情感识别目前存在的问题 3
2 本文中的语音情感识别的工具介绍 4
2.1 主流语音库的的简介 4
2.2 openSMILE的简介 5
2.3 weka软件的简介 6
2.4 Weka支持的文件格式 7
2.5 Weka的功能 8
3语音情感识别的基本原理 9
3.1 情感的分类 10
3.2 特征分析所采用的算法 12
4 特征的提取 13
4.1 提取过程 13
5 特征分析 14
5.1 分析过程 14
5.2 实验过程 15
结论 21
致 谢 22
参 考 文 献 23
1 引言
1.1 语音情感识别的历史回顾
语音情感识别(Speech Emotion Recognition,SER)技术从诞生至今已有30年的历史其作为一门刚刚兴起的学科正吸引着广大学者的目光。
在国外,最早Reeves和Nass提出“人和计算机交互中存在的问题和人际交往中存在的问题是相同的,其核心是情感的识别能力”,由此语音情感识别的技术初现端倪。
1972年,Williams等人发现人的情感变化会很大程度上影响语音的基音轮廓的现象[1]。真正意义上
*好棒文|www.hbsrm.com +Q: ¥351916072¥
Recognition,SER)技术从诞生至今已有30年的历史其作为一门刚刚兴起的学科正吸引着广大学者的目光。
在国外,最早Reeves和Nass提出“人和计算机交互中存在的问题和人际交往中存在的问题是相同的,其核心是情感的识别能力”,由此语音情感识别的技术初现端倪。
1972年,Williams等人发现人的情感变化会很大程度上影响语音的基音轮廓的现象[1]。真正意义上的语音情感识别的研究源于上世纪80年代,二十世纪八十年代中期,明斯基(Minsky)教授提出“让计算机具有情感识别能力”的观点,开创了语音情感识别的先河。随着人工智能领域内情感识别技术的重要性慢慢凸显,越来越多的科研单位和相关领域研究人员投入了情感识别研究的浪潮中。1990年代麻省理工学院的多媒体实验室了编译出的“情感编辑器”对外界的各种情感信号进行采集,综合使用了人体的生理信号、面部表情信号、语音信号来初步识别各种情感,并让机器对各种情感做出适当的简单反应[2]。1996年东京成蹊大学佐藤(Sato)和麻岛(Morishima)教授提出了情感空间的概念并建立了语音情感模型。1999年日本学者森山(Moriyama)教授提出了语音情感间的线性模型[3]。2000年马里博尔大学(Maribor University)教授Valadimir Hozjan对多种语言的语音情感识别进行了研究。
我国的语音情感识别的研究起步较晚,其中著名的有东南大学的赵力等人。1.2语音情感识别的研究现状
目前,各国科研工作者和相关机构对语音情感的研究都投入了大量的研究资金和精力,本节将介绍国内外相关研究的现状。
1.2.1国外的研究状况
国外方面,2000年语音情感研究领域的学者聚集在都柏林召开了第一届ISCAWorkshop on Speech and Emotion国际会议,本次会议主要目的是将相关领域的专家科研人员聚集在一起进行语音情感的讨论与研究。其后又有诸多国际性会议和权威刊物被创立和发行,其中较为著名的有:创立于2005年的Affective Computing and Intelligent Interaction双年会;创立于2009年的INTERSPEECH Emotion Challenge年度竞赛;创刊于2010年的《IEEE Transactions on Affective Computing》期刊和始于2011年的International Audio/ Visual Emotion Challenge and Workshop(AVEC)年度竞赛等[4]。同时语音情感的研究日益受到世界各大院校的和研究机构的重视,其中较为出名的有:麻省理工学院皮卡德(Picard)教授领导的媒体研究实验室;贝尔法斯特女王大学(Queens University Belfast)的考伊(Cowie)教授和道格拉斯考伊(Douglas Cowie)教授领导的情感语音小组;慕尼黑工业大学舒勒(Schuller)教授领导的人机语音交互小组;南加州大学纳拉亚南(Narayanan)教授领导的语音情感组[5]。
1.2.2 国内的研究现状
我国在该领域的研究始于本世纪初。2000年,南京航空航天大学教授于向民分析了含有“快乐”、“悲伤”、“愤怒”和“惊讶”四种语音信号的时间结构、振幅结构和共振峰结构特征[6],为我国后续的情感识别分析提供了合理的理论依据。2001年,东南大学教授赵力等人提出了三种基于主元素分析的语音情感识别方法,采用了马尔科夫模型(HMM)和混合高斯模型(GMM)进行了分析,取得了基本上与人正常表现的识别效果[7]。2003年,北京科技大学谷学静等人将BDI Agent技术与情感语音的机器人技术相结合。2003和2005中国科学院自动化研究所分别举办了第一届中国情感计算及智能交互会议和首届国际情感计算及智能交互学术会议[8]。
1.3 语音情感识别技术的应用
语音情感识别技术发展虽然距今仅仅有短短的三十几年的时间,但是其发展速度迅猛,正在各个领域内发挥作用。
语音情感的识别技术用于移动通信领域可以大大增加手机通讯的丰富
程度和传达通讯者情感的准确性。近年来智能手机技术高速发展,将语音识别技术与通信技术结合,可以将语音通讯提供双方精确的情绪变化,提高通信者之间的交流质量。
语音情感识别技术用于机动车驾驶领域。随着机动车的日益普及,交通事故率也逐渐增加,疲劳驾驶是造成交通事故的主要原因之一,利用情感识别技术可以有效地识别处于疲劳驾驶的机动车驾驶员,提醒驾驶员避免疲劳驾驶减少车祸发生率。
语音情感识别技术用于智能设备的语音识别领域。谷歌、苹果、微软三大科技巨头都有自主研发的语音识别应用:Googl
1 引言 1
1.1 语音情感识别的历史回顾 1
1.3 语音情感识别技术的应用 2
1.4 语音情感识别目前存在的问题 3
2 本文中的语音情感识别的工具介绍 4
2.1 主流语音库的的简介 4
2.2 openSMILE的简介 5
2.3 weka软件的简介 6
2.4 Weka支持的文件格式 7
2.5 Weka的功能 8
3语音情感识别的基本原理 9
3.1 情感的分类 10
3.2 特征分析所采用的算法 12
4 特征的提取 13
4.1 提取过程 13
5 特征分析 14
5.1 分析过程 14
5.2 实验过程 15
结论 21
致 谢 22
参 考 文 献 23
1 引言
1.1 语音情感识别的历史回顾
语音情感识别(Speech Emotion Recognition,SER)技术从诞生至今已有30年的历史其作为一门刚刚兴起的学科正吸引着广大学者的目光。
在国外,最早Reeves和Nass提出“人和计算机交互中存在的问题和人际交往中存在的问题是相同的,其核心是情感的识别能力”,由此语音情感识别的技术初现端倪。
1972年,Williams等人发现人的情感变化会很大程度上影响语音的基音轮廓的现象[1]。真正意义上
*好棒文|www.hbsrm.com +Q: ¥351916072¥
Recognition,SER)技术从诞生至今已有30年的历史其作为一门刚刚兴起的学科正吸引着广大学者的目光。
在国外,最早Reeves和Nass提出“人和计算机交互中存在的问题和人际交往中存在的问题是相同的,其核心是情感的识别能力”,由此语音情感识别的技术初现端倪。
1972年,Williams等人发现人的情感变化会很大程度上影响语音的基音轮廓的现象[1]。真正意义上的语音情感识别的研究源于上世纪80年代,二十世纪八十年代中期,明斯基(Minsky)教授提出“让计算机具有情感识别能力”的观点,开创了语音情感识别的先河。随着人工智能领域内情感识别技术的重要性慢慢凸显,越来越多的科研单位和相关领域研究人员投入了情感识别研究的浪潮中。1990年代麻省理工学院的多媒体实验室了编译出的“情感编辑器”对外界的各种情感信号进行采集,综合使用了人体的生理信号、面部表情信号、语音信号来初步识别各种情感,并让机器对各种情感做出适当的简单反应[2]。1996年东京成蹊大学佐藤(Sato)和麻岛(Morishima)教授提出了情感空间的概念并建立了语音情感模型。1999年日本学者森山(Moriyama)教授提出了语音情感间的线性模型[3]。2000年马里博尔大学(Maribor University)教授Valadimir Hozjan对多种语言的语音情感识别进行了研究。
我国的语音情感识别的研究起步较晚,其中著名的有东南大学的赵力等人。1.2语音情感识别的研究现状
目前,各国科研工作者和相关机构对语音情感的研究都投入了大量的研究资金和精力,本节将介绍国内外相关研究的现状。
1.2.1国外的研究状况
国外方面,2000年语音情感研究领域的学者聚集在都柏林召开了第一届ISCAWorkshop on Speech and Emotion国际会议,本次会议主要目的是将相关领域的专家科研人员聚集在一起进行语音情感的讨论与研究。其后又有诸多国际性会议和权威刊物被创立和发行,其中较为著名的有:创立于2005年的Affective Computing and Intelligent Interaction双年会;创立于2009年的INTERSPEECH Emotion Challenge年度竞赛;创刊于2010年的《IEEE Transactions on Affective Computing》期刊和始于2011年的International Audio/ Visual Emotion Challenge and Workshop(AVEC)年度竞赛等[4]。同时语音情感的研究日益受到世界各大院校的和研究机构的重视,其中较为出名的有:麻省理工学院皮卡德(Picard)教授领导的媒体研究实验室;贝尔法斯特女王大学(Queens University Belfast)的考伊(Cowie)教授和道格拉斯考伊(Douglas Cowie)教授领导的情感语音小组;慕尼黑工业大学舒勒(Schuller)教授领导的人机语音交互小组;南加州大学纳拉亚南(Narayanan)教授领导的语音情感组[5]。
1.2.2 国内的研究现状
我国在该领域的研究始于本世纪初。2000年,南京航空航天大学教授于向民分析了含有“快乐”、“悲伤”、“愤怒”和“惊讶”四种语音信号的时间结构、振幅结构和共振峰结构特征[6],为我国后续的情感识别分析提供了合理的理论依据。2001年,东南大学教授赵力等人提出了三种基于主元素分析的语音情感识别方法,采用了马尔科夫模型(HMM)和混合高斯模型(GMM)进行了分析,取得了基本上与人正常表现的识别效果[7]。2003年,北京科技大学谷学静等人将BDI Agent技术与情感语音的机器人技术相结合。2003和2005中国科学院自动化研究所分别举办了第一届中国情感计算及智能交互会议和首届国际情感计算及智能交互学术会议[8]。
1.3 语音情感识别技术的应用
语音情感识别技术发展虽然距今仅仅有短短的三十几年的时间,但是其发展速度迅猛,正在各个领域内发挥作用。
语音情感的识别技术用于移动通信领域可以大大增加手机通讯的丰富
程度和传达通讯者情感的准确性。近年来智能手机技术高速发展,将语音识别技术与通信技术结合,可以将语音通讯提供双方精确的情绪变化,提高通信者之间的交流质量。
语音情感识别技术用于机动车驾驶领域。随着机动车的日益普及,交通事故率也逐渐增加,疲劳驾驶是造成交通事故的主要原因之一,利用情感识别技术可以有效地识别处于疲劳驾驶的机动车驾驶员,提醒驾驶员避免疲劳驾驶减少车祸发生率。
语音情感识别技术用于智能设备的语音识别领域。谷歌、苹果、微软三大科技巨头都有自主研发的语音识别应用:Googl
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/1933.html