ros的智能聊天和遥操作机器人【字数:11272】

从“Siri”到“小爱同学”,从亚马逊的“Echo”到阿里巴巴的“天猫精灵”,各式各样的语音交互智能设备开始层出不穷,差不多每过几个月,语音交互技术的效果均会出现很大幅度的提升。从GUI到VUI,语音交互技术已经开始悄然腾飞。语音这种便捷、高效的交流方式,正在变为人和机器人交流的一座举足轻重的桥梁,让平日里冷冰冰的机器人能够增添一些“人情味”。加载了语音功能的机器人必能在未来的市场中大有可为。所以一款适合机器人的优秀的智能语音交互系统就显得尤为重要。目前国内市场的语音交互系统大多基于Android开发的,而ROS(机器人操作系统)具有强大的包容性和开放性,能够兼容其他开发工具、仿真工具,甚至操作系统。这些突出的优点,它能很大的减少研发成本和研发周期。鉴于此,本文设计出了一款基于ROS的智能聊天机器人,不仅“能听会说”,还能能控制它的运动轨迹。而基于ROS的聊天机器人核心在于搭建一个完整的、性能强大的语音交互系统。一个完整的语音交互系统一般包括语音唤醒wakeup、语音识别ASR、语义理解NLU、语音合成TTS四个部分。四部分语音模块缺一不可,因此,本文利用snowboy提供的语音唤醒功能,利用科大讯飞提供的在线语音识别功能,利用图灵机器人提供的在线语义理解功能,最后的语音合成则依旧使用科大讯飞的在线语音合成技术,设计出了一整套中文的语音交互系统。
目录
1. 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 1
1.3 主要研究内容和章节安排 2
2. 智能聊天机器人语音交互的相关理论 4
2.1 语音唤醒VT技术简析 4
2.2 语音识别ASR技术简析 4
2.3 语言处理NLP技术简析 5
2.4 语音合成TTS技术简析 6
2.5 智能聊天机器人语音交互总体框架预构 7
2.6 本章小结 8
3. 基于ROS的智能聊天机器人的语音交互的设计 9
3.1 语音合成TTS(Text To Speech)模块设计 9
3.2 语言处理NLP(Natural Language Processing)模块设计 14
3.3 语音识别ASR(A *好棒文|www.hbsrm.com +Q: ^351916072* 
utomatic Speech Recognition)模块设计 21
3.4 语音唤醒VT(voice trigger)模块设计 25
3.5 本章小结 29
4 . ROS 智能聊天机器人语音交互功能的测试 30
4.1 实验环境 30
4.2 唤醒测试 30
4.3 实时性问答测试 32
4.4 日常逻辑问答功能测试 34
4.5 娱乐功能测试 36
5 . ROS的智能聊天机器人语音控制机器人运动测试 39
5.1 语音控制乌龟运动测试 39
5.2 语音控制实体机器人mrobot测试 43
6. 总结与展望 45
参考文献 46
致谢 47
附录 48
1. 绪论
1.1 研究背景及意义
语音交互技术的发展历程已近四十余年,在此期间,其性能也在不断完善,它的准确率基本上高达97%以上,这也让全球的科技大牛对此一直保持很高的关注度。有了语音交互系统,不管你选择何种款型的硬件,这种高效、便捷的新型输入方式都会成为开发者的不二之选。不管是近期炒的火热的VR,还是各式各样的机器人,乃至已经离我们很近的智能家居产品、汽车导航,嵌入这种直接的交互技术,从而构建出的新型人机交互模式,会给人更加舒适、惬意的体验。给智能机器人装上“耳朵”、“大脑”、“嘴巴”,让人们从此解放双手、只需动口。
如今技术仍然处于日新月异的高速发展阶段,语音交互技术也水涨船高,处于蓬勃发展之中。此时此刻,融入语音交互功能的智能机器人已然成为一种趋势。因此借助机器人操作系统,设计出一款搭载着语音交互系统的智能聊天机器人存在一定的现实意义。
1.2 国内外研究现状
伴随着AI时代的来临,语音技术也借助这股浪潮不断迅猛发展。各式各样的语音智能产品已经来到了我们身边,生活习惯也不知不觉的为之改变。2011年,苹果公司在其第四代智能手机产品中嵌入并推行语音助手 Siri,Siri 的成功应用使智能语音交互产业迎来发展高峰;2014 年,来至亚马逊的智能音箱 Echo 让人眼前一亮,它最大的特点是嵌入名为 Alexa 语音交互大脑,它赋予了音箱语音交互的能力,让音箱能够像你的朋友一样与你交流;更重要的是,不管是购物或是信息查询等其所有功能都是由语音交互来完成。毫不夸张的说,Echo 俨然已经成为一位称职的个人助理,Echo的成功又一次带动了语音交互的发展。随后造型各异的语音交互机器人陆续推向市场,使语音交互机器人面向真实客户群;2015 年时京东与科大讯飞联手推出在功能上类似与 Echo 的智能语音音箱“叮咚”。自2016起始,语音交互市场开始争奇斗艳,差不多一个多月便会出现一次大的革新,用户的体验也在一次升级换代,而推动其发展归根到底还是依赖于语音交互技术链条的成熟。 从手机端到智能音箱这种真实垂直场景的过度,需要解决的是远场拾音与固定场景语义理解的问题, 而亚马逊首先突破了这个垂直场景语义理解瓶颈,国内科大讯飞和声智科技在随后补齐了语音信号前端处理这个空缺。不管是手机还是音箱,毫无疑问产品的落地到运作带来大量真实场景下的语音数据;面对如此规模的数据量,云端能力再次彰显出来,其存储能力足以保存终端产品在日常使用过程中所产生的数据;既然云端已经拥有海量数据,剩下便是如何处理数据,而深度学习算法与硬件计算能力相结合在这方面发挥了惊人的威力,在大量数据加持下不断训练进化模型,语音识别和自然语音理解方面不断取得突破性进展,如今讯飞、搜狗、百度等语音识别准确率高达 97%。在大数据时代下,国外的微软、谷歌、亚马逊,国内的科大讯飞、百度、阿里巴巴等一批实力强劲的公司已经深入部署并提供一系列语音解决方案,如亚马逊的语音服务 Alexa,百度的语音交互系统 DuerOS,科大讯飞的 AIUI 等。
综上可知,语音交互技术之所以能发展如此之快主要因为:其一在于科学技术水平的不断发展,尤其是深度学习在自然语言理解、语音识别领域的重大突破,麦克风阵列投入到实际场景中的应用;其二在于产业链的相互依赖发展,数据规模不断扩大;其三在于一大批优秀企业大幅涌现。因此,让处理能力受限的嵌入式终端拥有一定的语音交互能力已经具备足够的资源,而如何更加合理整合这些资源是当前需要认真考虑的问题。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jxgc/zdh/1157.html

好棒文