语音识别的说话人身份辨识系统设计
伴随着这些年生物特征身份鉴定技术的快速发展,基于语音识别的说话人辨识技术快速出现在群众的眼中。本文研究的是基于语音识别的说话人辨识系统设计的课题,主要研究了语音信号预处理、特征提取、模式匹配三个模块,同时也通过Matlab软件来实现该系统的一些基本功能。在对语音信号进行预处理时我们采取一阶滤波器和哈明窗来实现;在特征提取模块比拟了线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC),最后决定采用Mel频率倒谱系数;在模式匹配模块采用模版匹配法中的动态时间规整(DTW)算法来进行模式匹配。经过测验,最终发现利用动态时间规整算法对孤立字说话人具有很高的辨别率。关键词 语音预处理,Mel频率倒谱系数,动态时间规整算法
目 录
1 绪论 2
1.1 课题的研究背景与意义 2
1.2 系统概述 3
1.3 说话人识别研究与发展现状 5
1.4 论文的主要内容与章节安排 6
2 语音信号预处理 7
2.1 预加重 7
2.2 分帧加窗 8
2.3 端点检测 9
3 语音信号特征提取 11
3.1 LPCC特征参数 12
3.2 MFCC特征参数 13
3.3 Delta特征 15
4 语音信号模式匹配 15
4.1 常用的模式匹配方法 15
4.2 基于DTW的匹配方法 16
5 GUI设计 18
5.1 开发环境 18
5.2 GUI设计 18
6 系统测试 19
6.1 语音数据库 19
6.2 说话人识别系统的实现 19
6.3 性能评价 22
总 结 23
致 谢 24
参考文献 25
绪论
课题的研究背景与意义
语音作为人的众多自然属性之一,它是人类互相之间进行交流的时候使用最频繁的信息载体。语音信号中既包含了说话人的生理和行为特性。每个说话人在说话语音当中都带有浓浓的个人特色,这就表明现在有很大可能可以通过分析说话人的语音信号来辨认说话人 *好棒文|www.hbsrm.com +Q: ^351916072#
。随着时代和科技的发展,在社会上出现了使用计算机软件来识别某段未知语音的说话人身份的技术,即说话人辨识技术[1]。该系统是根据说话人语音信号波形中能够代表说话人特性的语音参数来识别待测语音说话者身份的一门技术[2]。这个系统主要涉及了声学、生理学、语言学、数字信号处理、模式识别与人工智能等多学科,是一个跨学科的综合性课题。
在已经来临的21世纪中,伴随着生物与信息学的高度发展,作为发展更迅速、更发达的信息安全技术代表生物特征识别技术,逐渐在全球化的电子商务领域脱颖而出[3]。生物特征识别技术是运用了说话人自己存在的生物特征或自己的行为习惯来进行身份确认的高新技术,它是集多种新兴技术于一身的第三代身份认证技术[4]。
在当代社会的各种生物识别技术中,说话作为人与人之间的常用交流工具,跟其他身份辨识方法相比有着很多与众不同的优点:
群众接受度很高。因为不会干涉到任何人的隐私;
群众使用方便、性价比高。目前最方便最经济的方法之一就是使用语音来进行说话人身份识别,语音采集设备价格便宜,而其他识别技术的相关设备价格高昂;
可以适应远程身份验证。目前在进行远距离登录的时候,我们根本没有办法去采集到用户的其他特征,但是我们只需要一个声音采集设备,就可以给说话人进行身份辨认。
低复杂度的算法。配合其他特征的多态化身份识别技术,可以在很大程度上提高安全性。
目前语音识别的技术还处于茁壮成长时期,现有的语音采集设备和现有的设备的整合程度决定着声音识别技术的应用范围。由于它是可以通过网络来使用的生物识别技术,所以该技术的的市场发展潜力关键在于设施设备的好坏。
最近几年,随着计算机和语音信号处理技术的快速提升,说话人识别技术在很多领域中都具备着越来越重要的地位[5],譬如在金融范围内可以应用于转账业务,在军事范围可以应用于对敌方的监听以及双方指挥员的鉴别,在司法范围可以应用于犯罪分子的日常监视与识别,在安全保卫范围可以应用于门禁系统控制,在信息服务范围可以应用于自动信息检索等。说话人辨别技术以其独到的便捷性、高性价比、和准确度收到众人追捧,并且逐渐变成人们日常活动中的主流身份验证方式。这些系统的应用有效的提高了身份认证速度和改变了以前依靠密码组合来确定身份信息的方法。并且在很大程度上提升了我们对自己个人信息的保障。
系统概述
系统构成及模块功能
说话人识别是通过对待测说话人所采集的语音进行分析,并且根据一系列算法来判别说话人是否在语音库中,以及确定说话人身份的步骤。说话人辨识技术是构成语音信号处理技术的一个重要组成部分。然而与语音识别所具有的不同点就是,说话人识别是不关心话音中所包含的语言信息,它只利用到能代表说话人身份的特征信息。
说话人身份辨识系统从语音识别的角度可以分为六个部分,如图11所示,以下将从分别从语音预处理、特征提取、模式匹配这三个模块来讲解语音处理的原理与方法。
图11系统结构框图
在实际生活中,采集环境和方式在很大程度上能够影响说话人的测试情况,使得有噪声或混响参合在测试语音中,然而我们往往可以在无干扰的实验里采集到训练语音,因此如果不能针对语音采集所伴随的噪声进行有效合理的处理,说话人辨认系统的性能将会受到很大的影响。因此,为了保证系统具有较高的识别率,我们要在语音预处理阶段尽量消除测试语音的噪声干扰[6],使它变得和训练语音一样干净。而且对于远距离说话人语音识别来说,预处理阶段是提高说话人辨别系统性能的重要部分之一。语音信号的预处理总共包括端点检测、预加重、分帧和加窗[7]四个部分。
特征提取的目的就是从待测的语音信号中提取出能够在一定程度上代表说话人独特特征的基本参数[8]。根据科学家对人的语音感知研究,不同人之间的说话差别在于先天和后天因素。不同说话人的发声器官结构有所不同,而这些不同会影响到人们感知语音和对说话人的辨识能力,这些都称为说话人之间的差别。此外还有一些比如说话习惯、文化水平、健康状况、遣词造句等通过语音信号间接表现出的信息,我们也把这些叫做说话人自身差异。说话人识别中常用的识别特征参数有线性预测倒谱系数(linear predict code cepstral coefficients,LPCC)、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和感知线性预测倒谱系数[9](Perceptual Linear Prediction,PLP)等。说话人识别系统的辨别率直接由特征参数提取的好坏来决定。
目 录
1 绪论 2
1.1 课题的研究背景与意义 2
1.2 系统概述 3
1.3 说话人识别研究与发展现状 5
1.4 论文的主要内容与章节安排 6
2 语音信号预处理 7
2.1 预加重 7
2.2 分帧加窗 8
2.3 端点检测 9
3 语音信号特征提取 11
3.1 LPCC特征参数 12
3.2 MFCC特征参数 13
3.3 Delta特征 15
4 语音信号模式匹配 15
4.1 常用的模式匹配方法 15
4.2 基于DTW的匹配方法 16
5 GUI设计 18
5.1 开发环境 18
5.2 GUI设计 18
6 系统测试 19
6.1 语音数据库 19
6.2 说话人识别系统的实现 19
6.3 性能评价 22
总 结 23
致 谢 24
参考文献 25
绪论
课题的研究背景与意义
语音作为人的众多自然属性之一,它是人类互相之间进行交流的时候使用最频繁的信息载体。语音信号中既包含了说话人的生理和行为特性。每个说话人在说话语音当中都带有浓浓的个人特色,这就表明现在有很大可能可以通过分析说话人的语音信号来辨认说话人 *好棒文|www.hbsrm.com +Q: ^351916072#
。随着时代和科技的发展,在社会上出现了使用计算机软件来识别某段未知语音的说话人身份的技术,即说话人辨识技术[1]。该系统是根据说话人语音信号波形中能够代表说话人特性的语音参数来识别待测语音说话者身份的一门技术[2]。这个系统主要涉及了声学、生理学、语言学、数字信号处理、模式识别与人工智能等多学科,是一个跨学科的综合性课题。
在已经来临的21世纪中,伴随着生物与信息学的高度发展,作为发展更迅速、更发达的信息安全技术代表生物特征识别技术,逐渐在全球化的电子商务领域脱颖而出[3]。生物特征识别技术是运用了说话人自己存在的生物特征或自己的行为习惯来进行身份确认的高新技术,它是集多种新兴技术于一身的第三代身份认证技术[4]。
在当代社会的各种生物识别技术中,说话作为人与人之间的常用交流工具,跟其他身份辨识方法相比有着很多与众不同的优点:
群众接受度很高。因为不会干涉到任何人的隐私;
群众使用方便、性价比高。目前最方便最经济的方法之一就是使用语音来进行说话人身份识别,语音采集设备价格便宜,而其他识别技术的相关设备价格高昂;
可以适应远程身份验证。目前在进行远距离登录的时候,我们根本没有办法去采集到用户的其他特征,但是我们只需要一个声音采集设备,就可以给说话人进行身份辨认。
低复杂度的算法。配合其他特征的多态化身份识别技术,可以在很大程度上提高安全性。
目前语音识别的技术还处于茁壮成长时期,现有的语音采集设备和现有的设备的整合程度决定着声音识别技术的应用范围。由于它是可以通过网络来使用的生物识别技术,所以该技术的的市场发展潜力关键在于设施设备的好坏。
最近几年,随着计算机和语音信号处理技术的快速提升,说话人识别技术在很多领域中都具备着越来越重要的地位[5],譬如在金融范围内可以应用于转账业务,在军事范围可以应用于对敌方的监听以及双方指挥员的鉴别,在司法范围可以应用于犯罪分子的日常监视与识别,在安全保卫范围可以应用于门禁系统控制,在信息服务范围可以应用于自动信息检索等。说话人辨别技术以其独到的便捷性、高性价比、和准确度收到众人追捧,并且逐渐变成人们日常活动中的主流身份验证方式。这些系统的应用有效的提高了身份认证速度和改变了以前依靠密码组合来确定身份信息的方法。并且在很大程度上提升了我们对自己个人信息的保障。
系统概述
系统构成及模块功能
说话人识别是通过对待测说话人所采集的语音进行分析,并且根据一系列算法来判别说话人是否在语音库中,以及确定说话人身份的步骤。说话人辨识技术是构成语音信号处理技术的一个重要组成部分。然而与语音识别所具有的不同点就是,说话人识别是不关心话音中所包含的语言信息,它只利用到能代表说话人身份的特征信息。
说话人身份辨识系统从语音识别的角度可以分为六个部分,如图11所示,以下将从分别从语音预处理、特征提取、模式匹配这三个模块来讲解语音处理的原理与方法。
图11系统结构框图
在实际生活中,采集环境和方式在很大程度上能够影响说话人的测试情况,使得有噪声或混响参合在测试语音中,然而我们往往可以在无干扰的实验里采集到训练语音,因此如果不能针对语音采集所伴随的噪声进行有效合理的处理,说话人辨认系统的性能将会受到很大的影响。因此,为了保证系统具有较高的识别率,我们要在语音预处理阶段尽量消除测试语音的噪声干扰[6],使它变得和训练语音一样干净。而且对于远距离说话人语音识别来说,预处理阶段是提高说话人辨别系统性能的重要部分之一。语音信号的预处理总共包括端点检测、预加重、分帧和加窗[7]四个部分。
特征提取的目的就是从待测的语音信号中提取出能够在一定程度上代表说话人独特特征的基本参数[8]。根据科学家对人的语音感知研究,不同人之间的说话差别在于先天和后天因素。不同说话人的发声器官结构有所不同,而这些不同会影响到人们感知语音和对说话人的辨识能力,这些都称为说话人之间的差别。此外还有一些比如说话习惯、文化水平、健康状况、遣词造句等通过语音信号间接表现出的信息,我们也把这些叫做说话人自身差异。说话人识别中常用的识别特征参数有线性预测倒谱系数(linear predict code cepstral coefficients,LPCC)、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和感知线性预测倒谱系数[9](Perceptual Linear Prediction,PLP)等。说话人识别系统的辨别率直接由特征参数提取的好坏来决定。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/857.html