深度学习的自动驾驶语音识别系统开发(源码)
人工智能是当今时代各个研究领域的一大热点,它的出现将推动整个社会的发展。随着人工智能的普及,语音识别作为人与机器交互的直接方式,已经广泛应用于生活当中,如智能家居、手机通讯、搜索软件等。在当今交通发达的背景下,自动驾驶得到人们的青睐,而为了得到更好的效果,深度学习与语音识别的结合是处理大量语音数据,得到高准确率的捷径。在深度学习当中,许多神经网络被应用于图像识别。图像识别是深度学习和神经网络发展的基础和根本。语音识别就是在图像识别的基础上,将语音信号转换为语图的形式,利用神经网络进行训练、学习,达到最后能识别语音的过程。本系统中利用卷积神经网络(CNN)进行模型建立、训练形成分类器。关键词 语音识别,深度学习,卷积神经网络
目录
1 引言 1
1.1 语音识别概述 1
1.2 语音识别与神经网络的发展及研究现状 1
1.3 本文的主要研究内容 3
2 语音识别与卷积神经网络基础理论及语言环境配置 4
2.1 语音识别基础理论 4
2.2 卷积神经网络基础理论 4
2.3 Python语言简介 6
2.4 环境配置 7
3 Keras深度学习框架与语音信号处理 8
3.1 Keras简介 8
3.2 语音信号处理 8
4 系统分析与设计 9
4.1 系统分析 9
4.2 系统设计 12
4.3 训练集处理 16
5 系统测试 18
结论 22
致谢 23
参考文献 24
1 引言
语音识别概述
语音是人类文明进步和发展的标志,在当今社会,语音不仅仅是人与人沟通的桥梁,更是人与机器交互的重要方式之一。语音在我们生活当中的主要应用领域有:医疗卫生、智能家居、移动通讯、其他电子产品及工业领域等。就比如生活当中,我们常用的通讯工具:微信、QQ等社交平台,其中的语音输入转换为文本等,就是语音识别在移动通讯方面的一个具体体现。语音识别一方面为我们提供了便捷的服务,另一方面也改善提高了我们的生活水平。随着深度学习及人工智能的发展,语音识别将逐步完善,一点 *好棒文|www.hbsrm.com +Q: ^351916072*
一滴地融入我们的生活当中。在本文中,研究如何将语音识别应用于自动驾驶当中,提高人们的生活质量,开发出基于深度学习的自动驾驶语音识别。
语音识别与神经网络的发展及研究现状
在自动驾驶方面,我国相关方面的技术与国外相比已不相上下,但是在某些技术方面仍有待发展提高,作为新一代的大学生,有责任和义务为社会发展贡献一份力量。
语音识别技术在20世纪80年代得以快速发展,这一时期主要研究大词汇量连续语音识别系统,主要是基于隐马尔可夫模型的声学模型和基友多元文化模型的语言模型的发展[6]。
在语音识别方面,运用到自动驾驶中的虽说有,但是不够普遍。在当今时代,传统的机器学习算法已不再适用于大量语音数据的处理,因此,深度学习模型凭借其优势成为语音识别领域的热点[1,2]。深度学习的概念大概在2006年的时候被提出来。深度置信网络(DBN)中非监督贪心逐层训练算法的出现,为解决深层结构优化等相关难题带来了曙光,随后又提出了多层自动编码器深层结构,给人们带来了一线希望。深度学习是机器学习研究领域中不可或缺的一个重要分支,它可以被理解为人工神经网络的发展必经阶段,它本质上是训练深层结构模型的方法,但也是对于通过多层网络来表示对数据之间的一系列关系进行数学建模的算法。这些和机器学习当中的算法非常相似,深度学习方法可以分为有监督学习和无监督学习。对于不同的深度学习框架所建立起来的学习模型也是不同的。就比如说,卷积神经网络就是一种深度的有监督学习环境下的机器学习模型,而深度置信网络就是一种深度的无监督学习环境下的机器学习模型。
语音识别多应用于人工智能、数据的输入输出,比如智能家居的控制、语音输入法等。语音识别技术与其他语言处理技术相结合,可以构建出更加复杂的应用。传统的语音识别系统普遍采用基于高斯混合模型和隐马尔可夫模型(GMMHMM)的声学模型。卷积神经网络并不属于全连接神经网络,它是由多个模块组合堆叠组成的,每一个模块又有许多其他层组成,如卷积层、池化层、次抽样层等。其中,卷积层包含许多个由若干节点组成的特征平面;次抽样层以下,一个卷积层的输出作为输入,每层的所有特征平面的节点共享它们的连接权重[13]。卷积神经网络(CNN)与深度神经网络(DNN)相比具有更好的优点,那就是可以获得更加鲁棒性的特点,使每个神经元之间更具有活跃性。另外一种深度学习模型便是循环递归神经网络(RNN),它也是神经网络中的一种[8,9]。目前,语音识别的问题一方面是复杂条件下(自然发音、口音、复杂噪声等等)识别率显著下降的问题;另一方面是语音的训练和测试用数据的匹配问题。较为成熟的基于深度学习的语音识别技术在语音识别系统训练流程上还是比较复杂的,需要很多中间步骤,所以研究更为简单方便的、具有高识别效率的语音识别技术是未来的一个研究和发展的方向。一般地,语音识别主要是特征提取问题,使用自动编码器可方便地解决某些问题。基于深度学习的编码器主要有以下几种:深度自动编码器、去噪自动编码器及稀疏自动编码器等。提取语音特征值可以从编码器结构、预训练与网络调谐等方面着手。其中,网络调谐过程中,可以使用随机梯度下降的方法减少迭代次数及时间。接着,通过神经网络进行训练,训练又分为有监督与无监督学习两种方式。最后再将结果与测试数据比较得出识别率,从而进行实验结果分析。卷积神经网络本质上是一种基于有监督学习的模型,它是由输入层、多个卷积层池化层交替出现构成整个网络的前端用于提取语图特征,在后端由多个全连接层用于对提取得到的局部特征进行整合与规划而得到多为特征矩阵,网络的最终输出会根据不同的分类任务进行动态调整,相比较于传统方法,CNN能够通过大量的样本数据进行训练,然后从训练数据中提取有效且泛化能力强的特征,非常适合处理分类任务。
在语音识别领域,CNN的潜力正在被逐步打开,越来越多的人开始在声学模型中引入CNN。
本文的主要研究内容
通过阅读和研究大量文献及著作,我国目前在无人驾驶方面,尤其是语音识别方面仍有不足,亟待改善提高。我们通过当今流行的深度学习方法,应用到语音识别当中,提高准确率,降低损失值,提高其在自动驾驶方面的实用性、普遍性。主要研究内容如下:
目录
1 引言 1
1.1 语音识别概述 1
1.2 语音识别与神经网络的发展及研究现状 1
1.3 本文的主要研究内容 3
2 语音识别与卷积神经网络基础理论及语言环境配置 4
2.1 语音识别基础理论 4
2.2 卷积神经网络基础理论 4
2.3 Python语言简介 6
2.4 环境配置 7
3 Keras深度学习框架与语音信号处理 8
3.1 Keras简介 8
3.2 语音信号处理 8
4 系统分析与设计 9
4.1 系统分析 9
4.2 系统设计 12
4.3 训练集处理 16
5 系统测试 18
结论 22
致谢 23
参考文献 24
1 引言
语音识别概述
语音是人类文明进步和发展的标志,在当今社会,语音不仅仅是人与人沟通的桥梁,更是人与机器交互的重要方式之一。语音在我们生活当中的主要应用领域有:医疗卫生、智能家居、移动通讯、其他电子产品及工业领域等。就比如生活当中,我们常用的通讯工具:微信、QQ等社交平台,其中的语音输入转换为文本等,就是语音识别在移动通讯方面的一个具体体现。语音识别一方面为我们提供了便捷的服务,另一方面也改善提高了我们的生活水平。随着深度学习及人工智能的发展,语音识别将逐步完善,一点 *好棒文|www.hbsrm.com +Q: ^351916072*
一滴地融入我们的生活当中。在本文中,研究如何将语音识别应用于自动驾驶当中,提高人们的生活质量,开发出基于深度学习的自动驾驶语音识别。
语音识别与神经网络的发展及研究现状
在自动驾驶方面,我国相关方面的技术与国外相比已不相上下,但是在某些技术方面仍有待发展提高,作为新一代的大学生,有责任和义务为社会发展贡献一份力量。
语音识别技术在20世纪80年代得以快速发展,这一时期主要研究大词汇量连续语音识别系统,主要是基于隐马尔可夫模型的声学模型和基友多元文化模型的语言模型的发展[6]。
在语音识别方面,运用到自动驾驶中的虽说有,但是不够普遍。在当今时代,传统的机器学习算法已不再适用于大量语音数据的处理,因此,深度学习模型凭借其优势成为语音识别领域的热点[1,2]。深度学习的概念大概在2006年的时候被提出来。深度置信网络(DBN)中非监督贪心逐层训练算法的出现,为解决深层结构优化等相关难题带来了曙光,随后又提出了多层自动编码器深层结构,给人们带来了一线希望。深度学习是机器学习研究领域中不可或缺的一个重要分支,它可以被理解为人工神经网络的发展必经阶段,它本质上是训练深层结构模型的方法,但也是对于通过多层网络来表示对数据之间的一系列关系进行数学建模的算法。这些和机器学习当中的算法非常相似,深度学习方法可以分为有监督学习和无监督学习。对于不同的深度学习框架所建立起来的学习模型也是不同的。就比如说,卷积神经网络就是一种深度的有监督学习环境下的机器学习模型,而深度置信网络就是一种深度的无监督学习环境下的机器学习模型。
语音识别多应用于人工智能、数据的输入输出,比如智能家居的控制、语音输入法等。语音识别技术与其他语言处理技术相结合,可以构建出更加复杂的应用。传统的语音识别系统普遍采用基于高斯混合模型和隐马尔可夫模型(GMMHMM)的声学模型。卷积神经网络并不属于全连接神经网络,它是由多个模块组合堆叠组成的,每一个模块又有许多其他层组成,如卷积层、池化层、次抽样层等。其中,卷积层包含许多个由若干节点组成的特征平面;次抽样层以下,一个卷积层的输出作为输入,每层的所有特征平面的节点共享它们的连接权重[13]。卷积神经网络(CNN)与深度神经网络(DNN)相比具有更好的优点,那就是可以获得更加鲁棒性的特点,使每个神经元之间更具有活跃性。另外一种深度学习模型便是循环递归神经网络(RNN),它也是神经网络中的一种[8,9]。目前,语音识别的问题一方面是复杂条件下(自然发音、口音、复杂噪声等等)识别率显著下降的问题;另一方面是语音的训练和测试用数据的匹配问题。较为成熟的基于深度学习的语音识别技术在语音识别系统训练流程上还是比较复杂的,需要很多中间步骤,所以研究更为简单方便的、具有高识别效率的语音识别技术是未来的一个研究和发展的方向。一般地,语音识别主要是特征提取问题,使用自动编码器可方便地解决某些问题。基于深度学习的编码器主要有以下几种:深度自动编码器、去噪自动编码器及稀疏自动编码器等。提取语音特征值可以从编码器结构、预训练与网络调谐等方面着手。其中,网络调谐过程中,可以使用随机梯度下降的方法减少迭代次数及时间。接着,通过神经网络进行训练,训练又分为有监督与无监督学习两种方式。最后再将结果与测试数据比较得出识别率,从而进行实验结果分析。卷积神经网络本质上是一种基于有监督学习的模型,它是由输入层、多个卷积层池化层交替出现构成整个网络的前端用于提取语图特征,在后端由多个全连接层用于对提取得到的局部特征进行整合与规划而得到多为特征矩阵,网络的最终输出会根据不同的分类任务进行动态调整,相比较于传统方法,CNN能够通过大量的样本数据进行训练,然后从训练数据中提取有效且泛化能力强的特征,非常适合处理分类任务。
在语音识别领域,CNN的潜力正在被逐步打开,越来越多的人开始在声学模型中引入CNN。
本文的主要研究内容
通过阅读和研究大量文献及著作,我国目前在无人驾驶方面,尤其是语音识别方面仍有不足,亟待改善提高。我们通过当今流行的深度学习方法,应用到语音识别当中,提高准确率,降低损失值,提高其在自动驾驶方面的实用性、普遍性。主要研究内容如下:
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1175.html