基于说话人声音识别的技术研究.docx
《基于说话人声音识别的技术研究.docx》由会员分享,可在线阅读,更多相关《基于说话人声音识别的技术研究.docx(23页珍藏版)》请在课桌文档上搜索。
1、数字信号处理课程设计报告题目:基于声音的说话人身份识别技术探讨学院:信息工程学院专业:通信工程指导老师:符茂胜指导时间:2014.12.22-2014.12.28姓名(学号)承担任务艾洲(2012014001)MATLAB程序编写与调试、文档编写、资料搜集王玉贵(2012014035)PPT制作、文档编写、资料搜集余文正(2012014040PPT制作、文档编写、资料搜集宁文雅(2012014025)文档编写、资料搜集刘安邦(2012014020)文档编写、资料搜集汪中日(2012014031)文档编写、资料搜集指导教师评价意见成绩书目一、背景1二、设计目的2三、设计基本原理21.说话人识别的
2、分类22.说话人识别的基本原理和系统结构3四、模式匹配与特征提取41.模式匹配运用方法:52.特征提取52.1 常用的特征参数52.2 语音的倒谱分析(MFCC)简介62.3 MFCC倒谱系数与其提取算法72.4 求取MFCC系数的详细算法和步骤9五、模式识别与算法优化121GMM模型的基本概念132. GMM模型的参数估计143. 1EM算法的计算154. 算法优化(MFCC中加入能量信息)17六、试验代码与设计分析181.试验代码182.设计分析182.1 问题的分析19七、试验体会与总结19八、参考文献20一、背景伴随着全球化、网络化、信息化、数字化时代的到来,我们对高牢靠性的身份验证技
3、术与身份识别技术的需求也日益增长。传统的以密码为特征的身份认证技术暴露出巨大的弊端,很难满意高平安性和长效平安性的要求,而在生物学和信息科学高度发展的今日,生物认证技术作为一种便捷、先进的信息平安技术已经在现实生活中得到广泛的应用。这是依据人体自身的生理特征(指纹、手形、脸部、虹膜)和行为特征(声音、签名)来识别身份的技术,它是集光学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技术,能满意现代社会对于身份鉴别的精确性、平安性与好用性的更高要求。在信号检测与处理、模式识别、人工智能、机器学习等理论与技术快速发展的推动下,不久的将来,生物认证技术必将进入一个光辉的时代。比尔盖茨曾经预言“
4、以人类生物特征进行身份验证的生物识别技术,在今后数年内将成为IT产业最为重要的技术革命。”语音是人的自然属性之一,由于说话人发声器官的生理差异以与后天形成的行为差异,每个人的语音都带有剧烈的个人色调,这使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着很多独特的优点,如语音是人的固有特征,不会丢失或遗忘;语音信号的采集便利,系统设备的成本低;另外利用电话网还可以实现远程客户服务等等。近年来,利用语音特征进行身份鉴别的说话人识别(也叫说话人识别)在生物认证技术领域中越来越受到探讨者的关注。二、设计目的说话人识别(SPeakerRecognition),是近年来兴起的一种生物识
5、别技术,说话人识别以其独特的便利性、经济性和精确性等优势受到世人瞩目。近年来,随着科学技术的发展,说话人识别技术已经得到了极大的发展,它在公安侦察、声控系统、医疗诊断、电子金融等行业和领域有着极其广袤的市场应用前景。说话人识别依据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份。与语音识别不同,说话人识别技术并不留意语音信号中的语义内容,而是希望从语音信号中提取出个人的信息特征。说话人识别有几个关键技术:首先是特征选取的问题,从声学或者统计学的角度从声音信号中提取某些特征参数,用这些特征参数来描述说话人的声音特征。其次是识别模型,用机器学习模型去学习、记忆说话人特征,从而达到识
6、别的目的。基于基本说话人识别理论和技术的探讨,本文基于MeI倒谱系数(MFCC)语音特征参数,采纳人工神经网络作为识别模型,探讨设计了一个说话人识别的原型系统。MFCC是目前运用最广泛的语音特征之一,具有计算简洁、区分实力好等突出的优点.三、设计基本原理1 .说话人识别的分类说话人识别按其最终完成的任务可以分成两类:说话人确认(SpeakerVerification,简称SV)和说话人辨识(SPeakCrIdentification,简称SD。本质上它们都是依据说话人所说的测试语句或关键词,从中提取与说话人本人特征有关的信息,再与存储的参考模型比较,做出正确的推断。不过说话人确认是确认一个人的
7、身份,只涉与一个特定的参考模型和待识别模式之间的比较,系统只作出“是”或“不是”的二元判决,如下第一幅图所示,可表示为:f(X,i)=0,1;而对于说话人辨识,系统则须要在一个指定人群当中,确定某测试语音是其中哪一个说话人发出的,有时还要对这个人以外的语音做出拒绝的判别。如下其次幅所示,可表示为:f(x)=1,2,N),由于须要比较和判决,所以说话人辨识的误识率要说话人确认,并且随着数量的增加,其性能将会渐渐下降。另外,用户在运用说话人识别系统时,须要向系统供应一段语音。2 .说话人识别的基本原理和系统结构说话人识别本质上是一个模式识别问题,分为训练阶段和识别阶段在训练阶段系统的每个运用者说出
8、若干训练语料,系统对这些训练语料进行数字化处理,依据特征参量建立每个运用者的模板或模型参数参考集。在识别阶段,把从待识别说话人说出的语音信号中提取的特征参量,与在训练过程中得到的参考参量集或模型模板进行对比,依据肯定的相像性准则进行决策从而得出识别结果。对于说话人辨识来说,所提取的参数要与训练过程中的每一个人的参考模型加以比较,并把与它距离最近的那个参考模型所对应的运用者分辨为是发出输入语音的说话人。对于说话人确认而言,则是将从输入语音中提取的特征参量与其声称为某人的参考模板比较,假如两者之间的距离小于肯定的阀值,则予以确认,否则拒绝。下图是说话人识别系统的结构框图,它由预处理,特征提取,模型
9、训练,模式匹配,和判决等几个大部分组成。提取的任务是选取唯一表现说话人身份的有效且稳定牢靠的特征,模式匹配的任务是对训练和识别时的特征模式做相像性匹配。四、模式匹配与特征提取在目前语义特征与说话人特性特征还不能很好地从语音特征中得到分别地状况下,为每一说话人建立的说话人特性特征模型事实上是话者的语音特征模型。为了对说话人特性特征描述的一样起见,系统一般将每一个说话人的模型结构取得相同,不同的只是模型的参数。1 .模式匹配运用方法:动态时间归整方法(DTW)说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律)。将识别模板与参考模板进行时间比对,依据某种距
10、离测度得出两模板间的相像程度。常用的方法是基于最近邻原则的动态时间归整说话人辨识系统的性能是与用户数量有关的。因为它工作时把输入测试语音的特征参数与系统所存储的每个合法运用者的参考模型相比较,所以当用户数量增多时,不仅处理时间变长,而且各个用户之间变得难以区分,导致差错率增大。而对于说话人确认系统差错率基本上不会随用户数量的增加而改2 .特征提取特征提取的原则:a)能够有效地区分不同的说话人,但又能在同一个说话人的语音发生变更时相对保持稳定。b)易于从语音信号中提取。c)不易被仿照。d)尽量不随时间和空间变更。2.1 常用的特征参数考虑到特征的可量化性,训练样本的数量和系统性能的评价问题,目前
11、的说话人识别系统主要依靠较低层次的声学特征进行识别。a)语音频谱干脆导出的参数语音短时谱中包含有激励源和声道的特性,因而可以反映说话人生识别。而短时时谱随时间变更,又在肯定程度上反映了说话人的发音习惯,因此,由时谱随时间变更,又在肯定程度上反映了说话人的发音习惯,因此,由率谱、基音轮廓、共振峰与其带宽、语音强度与其变更等。b)鲁棒性参数包括MeI频率倒谱系数,以与经过噪声谱减或者信道谱减的去噪倒谱系数等。综上所述,常用于说话人识别的特征参数有:语音短时能量、基音周期、语音短时谱或BPFG特征、线性预料系数LPC、共振峰频率与带宽、LPC倒谱、MFCC倒谱等,以与反映这些特征动态变更的线性回来系
12、数等。2. 2语音的倒谱分析(MFCC)简介本次试验求取语音倒谱特征参数的方法是采纳梅尔倒谱系数(MFCC),人们对频率低的声音,听起来感觉它的音调低,对于频率高的声音,听起来感觉它的音调高。但是音调与声音频率并不成正比关系。为了描写音调,人们采样梅尔(MeI)标度,规定音调的单位为Mel。通常将频率为100OHz60dB的纯音产生的音调定为100OMek假如一个纯音听起来比100OMel调子高了一倍,则它的音调为2000Mel和Walkman通过试验建立了一张如下图所示的音调一频率表,形象地阐述了在强度不变的状况下,音调和频率之间的关系。从图上可以看出两者之间并不是简洁的线性关系。在100O
13、-4000Hz范围内,两者之间基本上是线性相关的,当频率大于4000HZ时,基本上呈对数关系,而当频率小于IOoOHZ时,则近似于指数关系。2.3MFCC倒谱系数与其提取算法通过前人试验,人们已经知道:当中心频率在IOoOHZ以下时,临界带宽一般保持恒定,约为IoOHz。当中心频率超过100OHZ时,随着中心频率的增长,临界带宽呈对数增长。临界带宽的计算公式如下:BV.=25+751+1.4(rlOOO)2069,其中fc为中心频率随音调的频率的变更而变更。频率越低,人耳对频率的变更越敏感,即DL值较小。在强度为40dB时,200OHZ的音调只要变更3Hz即可被觉察;而当音调频率达到100OO
14、HZ时,DL值已上升到30Hz。试验表明,只要音调频率高于1000Hz,能觉察到的频率差异所需频率变更是相对恒定的,大约是03%这个结果说明:我们可以设计模型使其在音调轴(Mel)上均等地靠近语音短时功率谱,从而更好地符合人的听觉特性。依据语音信号的同态处理可知,求一般的倒谱系数的方法是:先求一帧语音的FFT,然后取模,再取对数,最终求IFFT即可。MFCC参数的计算要点是将线性功率谱转化成Mel频率下的功率谱。为了实现功率谱的转换,运用临界频带的划分,在语音帧的频率范围内设置一系列带通滤波器组成的滤波器序列,即MeI滤波器组,用该滤波器组模拟人耳听觉的非线性特性。下表给出了临界带滤波器组的一
15、种典型的中心频率和带宽参数。临界频带滤波器组滤波器标号中心频率(Hz)临界带宽(Hz)滤波器标号中心频率(Hz)临界带宽(Hz)110010011114916022001001213201843300100131516211440010014174124255001001520002786600100162297320770010017263936788001001830314229900100193482484每个滤波器其中心频率为f(i),与之对应的各个Mel频率点在Mel频率轴上是匀称分布的。这样,在线性频率上,当m较小时,相邻的f(i)的间隔较小,随着m的增加,相邻的f(i)的间隔会渐
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 说话 人声 识别 技术研究

链接地址:https://www.desk33.com/p-541872.html