实验报告-基于GMM-HMM的语音识别.doc
《实验报告-基于GMM-HMM的语音识别.doc》由会员分享,可在线阅读,更多相关《实验报告-基于GMM-HMM的语音识别.doc(13页珍藏版)》请在课桌文档上搜索。
1、目录基于GMM-HMM的语音识别1一、马尔科夫初步概念理解2(一)两个重要的图2(二)问题:马尔科夫的开始状态如何确定?3二、马尔科夫的三种问题,以与解法3(一)解码,3解法一:最大似然路径3解法二 : Viterbi algorithm3(二)A,B,根据骰子掷出的结果,求出掷出这个结果的概率模型检验5解法一:穷举5解法二:前向算法5(三)知道骰子状态有几种,不知道A,知道B,观察到很屡次投骰子的结果可见状态链,我想反推出A。5三、HMM算法使用条件5(一)隐性状态的转移必须满足马尔可夫性5(二)隐性状态必须能够大概被估计。5四、EM算法GMM高斯混合模型。6(一)单高斯分布模型GSM7(三
2、)样本分类情况下的GMM8(四)样本分类未知情况下的GMM8五、HMM-GMM模型在语音识别中的应用10(一)语言识别的过程10(二)其中HMM与GMM的作用11六、实验结果11(一)代码阅读以与注释11(二)实验结果比照11(三)与DTW结果比照12(四)实验感想与收获12(五)困难与改良12一、 马尔科夫初步概念理解(一) 两个重要的图(二) 问题:马尔科夫的开始状态如何确定?二、 马尔科夫的三种问题,以与解法(一) 解码,A,B隐含状态的数量以与转换概率以与B,根据掷骰子掷出的结果可见状态链,想知道每次掷出来的都是哪种骰子隐含状态链解法一:最大似然路径 根本思想:求一串骰子序列,这串骰子
3、序列产生观测结果的概率最大 算法:穷举解法二 : Viterbi algorithm,求出每次掷出的骰子分别是某种骰子的概率 根本思想: 算法: 类似于动态规划;:(二) A,B,根据骰子掷出的结果,求出掷出这个结果的概率模型检验解法一:穷举 思想:穷举所有骰子序列,计算每个骰子序列对应的概率,然后把这些概率相加 算法:呵呵解法二:前向算法 根本思想:结果递推,有点像动态规划,就是一步一步往后算,通过前向算法,算出概率加和,其中要用到A和B(三) 知道骰子状态有几种,不知道A,知道B,观察到很屡次投骰子的结果可见状态链,我想反推出A。三、 HMM算法使用条件但是使用HMM进展建模的问题,必须满
4、足以下条件,(一) 隐性状态的转移必须满足马尔可夫性。(状态转移的马尔可夫性:一个状态只与前一个状态有关)(二) 隐性状态必须能够大概被估计。在满足条件的情况下,确定问题中的隐性状态是什么,隐性状态的表现可能又有哪些.HMM适用于的问题在于,真正的状态(隐态)难以被估计,而状态与状态之间又存在联系。四、 EM算法GMM高斯混合模型。聚类的方法有很多种,k-means要数最简单的一种聚类方法了,其大致思想就是把数据分为多个堆,每个堆就是一类。每个堆都有一个聚类中心学习的结果就是获得这k个聚类中心,这个中心就是这个类中所有数据的均值,而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心分类的
5、过程就是将未知数据对这k个聚类中心进展比拟的过程,离谁近就是谁。其实k-means算的上最直观、最方便理解的一种聚类方式了,原那么就是把最像的数据分在一起,而“像这个定义由我们来完成,比如说欧式距离的最小,等等。想对k-means的具体算法过程了解的话,请看这里。而在这篇博文里,我要介绍的是另外一种比拟流行的聚类方法-GMMGaussian Mixture Model。 GMM和k-means其实是十分相似的,区别仅仅在于对GMM来说,我们引入了概率。说到这里,我想先补充一点东西。统计学习的模型有两种,一种是概率模型,一种是非概率模型。所谓概率模型,就是指我们要学习的模型的形式是P(Y|X),
6、这样在分类的过程中,我们通过未知数据X可以获得Y取值的一个概率分布,也就是训练后模型得到的输出不是一个具体的值,而是一系列值的概率对应于分类问题来说,就是对应于各个不同的类的概率,然后我们可以选取概率最大的那个类作为判决对象算软分类soft assignment。而非概率模型,就是指我们学习的模型是一个决策函数Y=f(X),输入数据X是多少就可以投影得到唯一的一个Y,就是判决结果算硬分类hard assignment。回到GMM,学习的过程就是训练出几个概率分布,所谓混合高斯模型就是指对样本的概率密度分布进展估计,而估计的模型是几个高斯模型加权之和具体是几个要在模型训练前建立好。每个高斯模型就
7、代表了一个类一个Cluster。对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。 得到概率有什么好处呢?我们知道人很聪明,就是在于我们会用各种不同的模型对观察到的事物和现象做判决和分析。当你在路上发现一条狗的时候,你可能光看外形好似邻居家的狗,又更像一点点女朋友家的狗,你很难判断,所以从外形上看,用软分类的方法,是女朋友家的狗概率51%,是邻居家的狗的概率是49%,属于一个易混淆的区域,这时你可以再用其它方法进展区分到底是谁家的狗。而如果是硬分类的话,你所判断的就是女朋友家的狗,没有“多像这个概念,所以不方便多模型的融合。(一)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 报告 基于 GMM HMM 语音 识别

链接地址:https://www.desk33.com/p-23218.html