电子词典的语音输入与设计(源码)【字数:7461】
摘 要目前,业界不少知名公司都提供了语音识别的产品以及开放的平台,国内如科大讯飞、百度语音识别平台,国外如微软、Google、苹果等。这些公司投入了大量的人员和资金进行语音识别的研究开发,发布的产品和平台都比较成熟。 本课题就是分别介绍百度、科大讯飞、微软的语音识别库接入方案,并且对百度、科大讯飞、微软提供给的语音识别库进行验证、比较和分析。在慢速、中速以及快速情况下,分别记录三大公司引擎的语速对识别时间的影响和语速对识别精度的影响,为电子词典的语音识别给出科学、合理的评估依据。摘 要 2
目 录
ABSTRACT 2
第一章 绪论 1
1.1研究的目的及意义 1
1.2研究背景 2
1.2.1国外背景 2
1.2.2国内背景 3
1.3研究的内容 4
1.4章节目录 5
第二章 开发环境介绍 6
2.1开发工具及环境 6
第三章 三大公司的语音识别库接入方案 6
3.1百度语音识别库接入方案 6
3.2科大讯飞语音识别库接入方案 7
3.3微软语音识别库接入方案 9
第四章 三大公司的语音识别库的引擎对比 9
4.1测试说明 10
4.1.1MicrosoftSpeech SDK 10
4.1.2科大讯飞SDK 10
4.1.3百度SDK 11
4.2测试流程 12
4.3测试结果以及比较 12
4.3.1测试结果 12
4.3.2总结 12
结束语 13
致 谢 1
.参考文献 2
第一章 绪论
1.1研究的目的及意义
语言是人类思想最重要的载体,是人们交流最有效、最方便、最自然的方式。语音识别技术就是让机器接收,识别和理解语音信号,并将其转换成相应数字信号的技术。
语音识别是涉及很多学科的一门交叉学科,涉及到声学、语音语言学、数理统计、信息理论、机器学习以及人工智能等学科。语音识别系统可以把操作人员的大量重复劳动交给机 *好棒文|www.hbsrm.com +Q: ^351916072#
器来处理,节约了人力,提高了效益。例如:专家咨询系统、信息服务系统、自然语音识别系统、寻呼服务、故障服务、智能对话查询系统、语音订票系统等。在某些恶劣环境和对人身有伤害的特殊环境下,例如地下、深水、辐射或高温等地方,就可以通过语音识别系统发布指令,让机器完成各种工作。
现在几乎所有成功应用到实际中的语音识别方法都采用概率统计的方法或信息论的方法。最主要的,大量被使用的方法有动态时间规整技术、隐马尔可夫模型、人工神经网络、支持向量机等方法,尤其是基于深度神经网络的语音识别算法近几年得到了深入研究,这些方法的出现极大地推动了语音识别从实验室走向实际应用。
近三十年来,语音识别技术发展迅速,逐渐从实验室走向市场,形成产品。在信息处理、通信与电子系统、自动控制等领域相继出现了不同用途的语音识别系统,已经逐渐显露出其强大的技术优势和生命力。
目前,业界不少知名公司都提供了语音识别的产品以及开放的平台,国内如科大讯飞、百度语音识别平台,国外如微软、Google、、苹果等。这些公司投入了大量的人员和资金进行语音识别的研究开发,发布的产品和平台都比较成熟。
语音识别发展到现在,在中小词汇量非特定人语音识别系统和特定人语音识别系统中的识别精度已经接近100%,这些技术已经能够满足一般应用的需求。但是要实现真正的人机自然交流还需要很多的工作要做。它还要在下述几个方面取得突破性进展:
(1) 识别系统的强健性方面,有待进一步增强。现在,环境噪音和杂音对语音识别的效果影响最大。在嘈杂环境中必须有特殊的抗噪技术处理才能正常的使用语音识别,否则识别率很低,效果很差,给出了一种低信噪比环境的语音识别模型。
(2) 多语言混合识别方面和无限词汇识别方面需改善。现在使用的语音模型和声学模型有很多的局限性,如果突然从英语转为法语、俄语或者汉语,计算机就不会处理了,得到的东西完全不是我们想要的结果。
(3) 在自适应方面需要更大的改进,达到不受口音、方言和特定人影响的要求。现实中的语音类型是各种各样的,从声音特征来说可以分为男音、女音和童音,另外,很多人的发音同标准发音有很大的差距,这就需要进行口音和方言的处理。即使同一个人,如果处在不同的环境中,或者在不一样的语境中,意思也可能不同。这些同样需要改进语音模型,让语音识别能适应大多数人的声音特征。
(4) 语音识别系统在从实验室转化为商品的过程中,同样需要解决很多具体问题。比如,系统的识别速度、识别效率以及连续语音识别中剔除无意义语气词等问题。
电子词典语音输入作为一种典型的语音识别应用,作为移动环境下使用,要求处理速度快,并能够针对高噪声,不同口音场景下仍能提供高的识别准确率,从而保证用户体验。
本课题就是对业界几个知名厂商提供给的语音识别库进行验证、比较和分析,从而为电子词典语音识别算法的选择给出科学、合理的评估依据。
1.2研究背景
1.2.1国外背景
1.19501960年代
第一个语音识别系统基于单一模式匹配。这些早期系统的一个很好的例子是公用事业公司用来让客户自动读取仪表的自动化系统。在这个例子中,客户对系统的回应只是一个有限选项列表中的一个字或数字。它通过将每个声音模块与其内存中的类似存储模式进行比较来实现此目的。1952年,贝尔实验室的一个团队设计了Audrey,一台可以根据口头数字来理解的机器。
2. 1970年代
技术进步已经导致了基于模式和特征分析的语音识别系统的发展,其中每个单词被分解成比特字节并且被诸如其包含的元音的关键特征识别。这种方法涉及数字化声音并将其转换为声谱图,将其分解为声音帧,分解单词并识别每个关键特征。
为了确定可以说的内容,计算机必须将每个单词的主要特征与已知特征列表进行比较。你使用它越多,系统就越好,因为它集成了用户的反馈。这种方法比以前的方法更有效,因为口语的基本声音成本非常有限。
从1971年到1976年,DARPA投资了五年的语音识别研究,创造出一台能够理解至少1000字的机器。该计划使卡内基梅隆大学创建了一台能够理解1,011个单词的机器。
3.1980年代
但是,以前的技术还不够精确,因为语言太复杂:不同的人会用不同的方式说同一个词,有许多类似的词(如两个),等等。出于统计目的,语音识别系统开始使用统计方法。在此期间引入的关键技术是隐马尔可夫模型(HMM),该模型用于建立声学模型和随机语言模型。
目 录
ABSTRACT 2
第一章 绪论 1
1.1研究的目的及意义 1
1.2研究背景 2
1.2.1国外背景 2
1.2.2国内背景 3
1.3研究的内容 4
1.4章节目录 5
第二章 开发环境介绍 6
2.1开发工具及环境 6
第三章 三大公司的语音识别库接入方案 6
3.1百度语音识别库接入方案 6
3.2科大讯飞语音识别库接入方案 7
3.3微软语音识别库接入方案 9
第四章 三大公司的语音识别库的引擎对比 9
4.1测试说明 10
4.1.1MicrosoftSpeech SDK 10
4.1.2科大讯飞SDK 10
4.1.3百度SDK 11
4.2测试流程 12
4.3测试结果以及比较 12
4.3.1测试结果 12
4.3.2总结 12
结束语 13
致 谢 1
.参考文献 2
第一章 绪论
1.1研究的目的及意义
语言是人类思想最重要的载体,是人们交流最有效、最方便、最自然的方式。语音识别技术就是让机器接收,识别和理解语音信号,并将其转换成相应数字信号的技术。
语音识别是涉及很多学科的一门交叉学科,涉及到声学、语音语言学、数理统计、信息理论、机器学习以及人工智能等学科。语音识别系统可以把操作人员的大量重复劳动交给机 *好棒文|www.hbsrm.com +Q: ^351916072#
器来处理,节约了人力,提高了效益。例如:专家咨询系统、信息服务系统、自然语音识别系统、寻呼服务、故障服务、智能对话查询系统、语音订票系统等。在某些恶劣环境和对人身有伤害的特殊环境下,例如地下、深水、辐射或高温等地方,就可以通过语音识别系统发布指令,让机器完成各种工作。
现在几乎所有成功应用到实际中的语音识别方法都采用概率统计的方法或信息论的方法。最主要的,大量被使用的方法有动态时间规整技术、隐马尔可夫模型、人工神经网络、支持向量机等方法,尤其是基于深度神经网络的语音识别算法近几年得到了深入研究,这些方法的出现极大地推动了语音识别从实验室走向实际应用。
近三十年来,语音识别技术发展迅速,逐渐从实验室走向市场,形成产品。在信息处理、通信与电子系统、自动控制等领域相继出现了不同用途的语音识别系统,已经逐渐显露出其强大的技术优势和生命力。
目前,业界不少知名公司都提供了语音识别的产品以及开放的平台,国内如科大讯飞、百度语音识别平台,国外如微软、Google、、苹果等。这些公司投入了大量的人员和资金进行语音识别的研究开发,发布的产品和平台都比较成熟。
语音识别发展到现在,在中小词汇量非特定人语音识别系统和特定人语音识别系统中的识别精度已经接近100%,这些技术已经能够满足一般应用的需求。但是要实现真正的人机自然交流还需要很多的工作要做。它还要在下述几个方面取得突破性进展:
(1) 识别系统的强健性方面,有待进一步增强。现在,环境噪音和杂音对语音识别的效果影响最大。在嘈杂环境中必须有特殊的抗噪技术处理才能正常的使用语音识别,否则识别率很低,效果很差,给出了一种低信噪比环境的语音识别模型。
(2) 多语言混合识别方面和无限词汇识别方面需改善。现在使用的语音模型和声学模型有很多的局限性,如果突然从英语转为法语、俄语或者汉语,计算机就不会处理了,得到的东西完全不是我们想要的结果。
(3) 在自适应方面需要更大的改进,达到不受口音、方言和特定人影响的要求。现实中的语音类型是各种各样的,从声音特征来说可以分为男音、女音和童音,另外,很多人的发音同标准发音有很大的差距,这就需要进行口音和方言的处理。即使同一个人,如果处在不同的环境中,或者在不一样的语境中,意思也可能不同。这些同样需要改进语音模型,让语音识别能适应大多数人的声音特征。
(4) 语音识别系统在从实验室转化为商品的过程中,同样需要解决很多具体问题。比如,系统的识别速度、识别效率以及连续语音识别中剔除无意义语气词等问题。
电子词典语音输入作为一种典型的语音识别应用,作为移动环境下使用,要求处理速度快,并能够针对高噪声,不同口音场景下仍能提供高的识别准确率,从而保证用户体验。
本课题就是对业界几个知名厂商提供给的语音识别库进行验证、比较和分析,从而为电子词典语音识别算法的选择给出科学、合理的评估依据。
1.2研究背景
1.2.1国外背景
1.19501960年代
第一个语音识别系统基于单一模式匹配。这些早期系统的一个很好的例子是公用事业公司用来让客户自动读取仪表的自动化系统。在这个例子中,客户对系统的回应只是一个有限选项列表中的一个字或数字。它通过将每个声音模块与其内存中的类似存储模式进行比较来实现此目的。1952年,贝尔实验室的一个团队设计了Audrey,一台可以根据口头数字来理解的机器。
2. 1970年代
技术进步已经导致了基于模式和特征分析的语音识别系统的发展,其中每个单词被分解成比特字节并且被诸如其包含的元音的关键特征识别。这种方法涉及数字化声音并将其转换为声谱图,将其分解为声音帧,分解单词并识别每个关键特征。
为了确定可以说的内容,计算机必须将每个单词的主要特征与已知特征列表进行比较。你使用它越多,系统就越好,因为它集成了用户的反馈。这种方法比以前的方法更有效,因为口语的基本声音成本非常有限。
从1971年到1976年,DARPA投资了五年的语音识别研究,创造出一台能够理解至少1000字的机器。该计划使卡内基梅隆大学创建了一台能够理解1,011个单词的机器。
3.1980年代
但是,以前的技术还不够精确,因为语言太复杂:不同的人会用不同的方式说同一个词,有许多类似的词(如两个),等等。出于统计目的,语音识别系统开始使用统计方法。在此期间引入的关键技术是隐马尔可夫模型(HMM),该模型用于建立声学模型和随机语言模型。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/116.html