关于某语音合成方法的调研报告材料.doc
word关于语音合成方法的调查报告摘要:本文是一篇关于语音合成方法的调查报告,在搜集整理大量相关文献的根底上,简要的总结了几种常用的语音合成方法,讨论各种合成方法的原理与算法,并简要分析各种合成方法的性能与适用场合。关键词:语音合成;种类;原理;算法;性能正文语音合成技术是利用电脑, 按规定的程序和指令, 人为产生语音的技术。语音合成从技术方式讲可分为波形合成、参数分析合成以与规如此合成等三种。1、波形合成波形合成法一般有两种形式。一种是波形编码合成,它类似于语音编码种的波形编解码法,该方法直接把要合成的语音的发音波形进展存储或者进展波形编辑压缩后存储,合成重放时再解码输出,称PCM波形合成法。另一种是波形编辑合成,他把波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进展编辑拼接后输出。11 波形编码合成根本原理:波形编码合成方法以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进展数字编码,经适当的数据压缩,组成一个合成语音库。重放时,根据待输出的信息,在语音库中取出相应单元的波形数据,串接或编辑在一起,经解码复原出语音。性能分析:波形编码语音合成技术用原始语音波形替代参数,而且这些语音波形取自自然语音的词或句子,它隐含了声调、重音、发音速度的细微特性,也叫录音编辑合成,合成单元越大,合成的自然度越好,其质量普遍高于参数合成。且系统结构简单,价格低廉。但合成语音的数码率较大,存储量也大,因而合成词汇量有限。通常只能合成有限词汇的语音段。目前用于自动报时、报站和报警等。12波形编辑合成根本原理:波形编辑合成方法将波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进展编辑拼接后输出。它采用语音编码技术,存储适当的语音基元。合成时,经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。算法简述:80年代末E.Moulines和F.Charpentier提出基于时域波形修改的语音合成算法。PSOLA就是基音同步叠加,它把基音周期的完整性作为保证波形与频谱平滑连续的根本前提。该算法按以下三步实施:对原始波形进展分析,产生非参数的中间表示;对中间表示进展修改;将修改正的中间表示重新合成为语音信号。由于修改的参数不同,又分为TD-PSOLA、FD-PSOLA和LP-PSOLA。PSOLA是用于波形编辑合成语音技术中对合成语音的韵律进展修改的一种算法。如下图是利用PSOLA算法的语音合成系统的根本结构:图1 基于PSOLA算法的语音合成系统本质上说,PSOLA算法是利用短时傅里叶变换重构信号的叠结相加法。信号的x(n)短时傅里叶变换为:由于语音信号是一个短时平稳信号,因此在时域每隔假如干个例如R个样本取一个频谱函数就可以重构信号x(n),即可令:其傅里叶逆变换为:然后就可以通过叠加得到原信号,即:时域基音同步叠加技术作为基音同步叠加技术的一种,通过以下步骤实现语音的合成:(1) 对语音合成单元设置基音同步标记。(2) 以语音合成单元的同步标记为中心,选择适当长度一般取两倍的基音周期的时窗对合成单元做加窗处理,获得一组短时信号。 (3) 在合成规如此的指导下,调整步骤1中获得的同步标记,产生新的基音同步标记。(4) 根据步骤3得到的合成语音的同步标记,对步骤2中得到的短时信号进展叠加,从而获得合成语音。 性能分析:PSOLA算法在编辑和拼接语音波形前能根据上下文的要求,对拼接单元的韵律特征作出调整,而且音库中的采佯波形中保存了一局部原发音人的语音特征这样使台成语音的自然度和清晰度都得到了显著提高。2、参数分析合成参数分析合成多以音节、半音节或音素为合成单元。首先,按照语音理论,对所有合成单元的语音进展分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合成器中,通过合成参数的控制,将语音波形重新复原出来。参数分析合成方法基于声道截面积函数或声道谐振特性合成语音,如共振峰合成、LPC合成。这类合成技术在的比特率低,音质适中。为改善音质,开展了混合编码技术,主要手段是改善激励,如码本激励、多脉冲激励、长时预测规如此码激励等,这样,比特率有所增大,同时音质得到提高。参数分析合成的主要优点是数据量小,易于实现韵律修改,但有限的参数很难表述自然语音的细微变化。2.1 共振峰合成根本原理:语音合成的理论根底是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔声道,由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率极点频率的分布特性决定着该语音的音色。音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率与其带宽作为参数,可以构成共振峰滤波器。再用假如干个这种滤波器的组合来模拟声道的传输特性频率响应,对激励源发出的信号进展调制,再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的根本原理。基于共振峰的理论有以下三种实用模型。1) 级联型共振峰模型在该模型中,声道被认为是一组串联的二阶谐振器。该模型主要用于绝大局部元音的合成。2) 并联型共振峰模型许多研究者认为,对于鼻化元音等非一般元音以与大局部辅音,上述级联型模型不能很好地加以描述和模拟,因此,构筑和产生了并联型共振峰模型。3) 混合型共振峰模型在级联型共振峰合成模型中,共振峰滤波器首尾相接;而在并联型模型中,输入信号先分别通过幅度调节再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。将两者比拟,对于合成声源位于声道末端的语音大多数的元音,级联型符合语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于合成声源位于声道中间的语音大多数清擦音和塞音,并联型如此比拟适宜,但是其幅度调节很复杂。基于此种考虑,人们将两者结合在一起,提出了混和型共振峰模型。图2 共振峰合成器的系统模型性能分析:共振峰模型是基于对声道的一种比拟准确的模拟,因而可以合成出自然度比拟高的语音,另外由于共振峰参数有着明确的物理意义,直接对应于声道参数,因此,可以容易利用共振峰描述自然语流中的各种现象,并且总结声学规如此,最终用于共振峰合成系统。高级共振峰合成器可合成出高质量的语音,几乎和自然语音没有差异。但关键是如何得到合成所需的控制参数,如共振峰频率、带宽、幅度等。而且,求取的参数还必须逐帧修正,才能使合成语音与自然语音达到最优匹配。但是,人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上,因此,对于声道模型的不准确势必会影响其合成质量。另外,实际工作明确,共振峰模型虽然描述了语音中最根本最主要的局部,但并不能表征影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。另外,共振峰合成器控制十分复杂,对于一个好的合成器来说,其控制参数往往达到几十个,实现起来十分困难。2.2LPC参数合成LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。LPC语音合成器利用LPC语音分析方法,通过分析自然语音样本,计算出 LPC系数,就可以建立信号产生模型,从而合成出语音。图3 LPC语音合成器图3所示的线性预测合成的形式有两种:一种是直接用预测器系数,构成的递归型合成滤波器,其结构如图4所示 :图4 递归型合成滤波器用这种方法定期地改变激励参数和预测器系数 ,就能合成出语音。这种结构简单而直观,为了合成一个语音样本,需要进展p次乘法和p次加法。它合成的语音样本由下式决定:其中, 为预测器系数;G为模型增益; 为激励;合成语音样本为 ;p为预测器阶数。直接形式的预测系数滤波器结构的优点是简单、易于实现,所以曾广泛被采用。其缺点是合成语音样本需要很高的计算精度。 另一种合成的形式是采用反射系数 构成的格型合成滤波器。它的合成语音样本由下式决定:其中,G为模型增益; 为激励;为反射系数; 为后向预测误差;p为预测器阶数。采用反射系数 的格型合成滤波器结构,虽然运算量大于直接型结构,却具有一系列优点:其参数 具有1的性质,因而滤波器是稳定的;同时与直接结构形式相比,它对有限字长引起的量化效应灵敏度较低。 在实际进展语音合成时,除了构成合成滤波器之外,还必须在有浊音的情况下,将一定基音周期的脉冲序列作为音源;在清音的情况下,将白噪音作为音源。而且,必须进展浊音/清音的判别和确定音源强度。对于基音周期的检测,采用去掉共振峰影响后的最后一级残差信号 前向预测误差的自相关函数的方式是有效的。这个残差信号的自相关函数也叫变形自相关函数 ,它除了可用来检测基音周期之外,也可用来区别浊音/清音等。在 之后找出 取峰值时的T,即从n=0开始,搜索基音周期可能存在的315ms的区间,从而求出这个周期。图5 变形自相关函数和基音周期检测同样对于浊音/清音的判别方法,也可以采用误差信号 。采用 的一个方法是利用 这个比值,如果是浊音的话, 如此相当于 的一个极值。所以可以设定 的比值在0.18以下为清音,在0.25以上为浊音,在这两个值之间引入了浊音度V和清音度U的概念,且U+V=1。这时,确定U和V时要使U+V=1,即如图8-5所示,在U=1时为无声,只用白噪音作为音源。在V=1时,为有声,使用与音调周期T同步的脉冲序列作为音源。在 时,常常把对应于 和 的白噪音和脉冲序列的和信号作为音源。图6 音源参数的设定法对于音源强度,可以直接使用相当于残差信号能量的 ,即采用 值。用这种方法构成PARCOR分析合成滤波器的整个结构如图7所示。图7 PARCOR分析合成滤波器性能分析:LPC合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外,由于波形拼接技术的合成基元是语音的波形数据,保存了语音的全部信息,因而对于单个合成基元来说能够获得很高的自然度。但是,由于自然语流中的语音和孤立状况下的语音有着极大的区别,如果只是简单地把各个孤立的语音生硬地拼接在一起,其整个语流的质量势必是不太理想的。而LPC技术从本质上来说只是一种录音重放,对于合成整个连续语流LPC合成技术的效果是不理想的。因此,LPC合成技术必须和其他技术相结合,才能明显改善LPC合成的质量。3、规如此合成根本原理:规如此合成方式通过语音学规如此来产生目标语音。规如此合成系统存储的是较小的语音单位(如音素、双音素、半音节或音节)的声学参数,以与由音素组成音节、再由音节组成词或句子的各种规如此。当输入字母符号时,合成系统利用规如此自动地将它们转换成连续的语音波形。由于语音中存在协同发音效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规如此是在分析每一语音单元出现在不同环境中的协同发音效应后,归纳其规律而制定的如共振峰频率规如此、时长规如此、声调和语调规如此等。由于语句中的轻重音,还要归纳出语音减缩规如此。算法简介: 规如此合成方法中具有代表性的算法是:基音同步叠加技术PSOLA,该方法既能保持所发音的主要音段特征,又能在拼接时灵活调整其它基频、时长和强度等超音段特征。核心思想:直接对存储与音库的语音运用PSOLA算法来进展拼接,从而整合成完整的语音。PSOLA算法在前述波形编辑合成作过详细的分析,这里不再赘述。性能分析:规如此合成法是一种高级合成法。规如此合成法通过语音学规如此产生语音,合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以与由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重等韵律的各种规如此。给出待合成的字母或文字后,合成系统利用规如此自动的将他们转换成连续的语音声波。这种方法可以合成无限词汇的语句。在语音波形片断拼接之前,首先根据语义,用PSOLA算法对拼接单元的韵律特征进展调整,使合成波形既保持了原始语音基元的主要音段特征,又使拼接单元的韵律特征符合语义,从而获得很高的可懂度和自然度。总结本学期选修语音信号处理这门课程,学习了语音信号处理的根底、概念、原理、方法与应用,同时了解了一定的背景知识、开展概况、研究现状、应用前景和开展趋势与方向。本调查报告围绕语音信号合成技术这一课题,进展一定的分析讨论与扩展,以此作为本门课程的总结。不敢妄谈见解,谨以所学容加以总结与梳理、搜集相关文献加以提炼与编纂。其中难免错误与疏漏之处,亦难免认识肤浅、总结不到位之处,还望教师指正。由人工通过一定的机器设备产生出语音称为语音合成。语音合成是人机语音通信的一个重要组成局部。语音合成研究的目的是制造一种会说话的机器,它解决的是如何让机器象人那样说话的问题,使一些以其它方式表示或存储的信息能转换为语音,让人们能通过听觉而方便地获得这些信息。语音合成技术经历了一个逐步开展的过程,从参数合成到拼接合成,再到两者的逐步结合,其不断开展的动力是人们认知水平和需求的提高。早期的被形编辑技术并没有用于语言合成,因为它只能回放音库中保存的东西。而任何一个语音单元在实际语流中都会随着语音环境的变化而变化。九十年代初,基于PSOLA(基音同步叠加)算法的波形编辑技术开始用于语音台成,它和早期的波形编辑有原如此性的差异。PSOLA算法在编辑和拼接语音波形前能根据上下文的要求,对拼接单元的韵律特征作出调整,而且音库中的采佯波形中保存了一局部原发音人的语音特征。这样使台成语音的自然度和清晰度都得到了显著提高。随着语音技术研究的突破,其对计算机开展和社会生活的重要性日益凸现出来。语音合成技术是语音技术中十分实用的一项重要技术,它能解决人民大众的实际需求,能够深入到社会的各行各业中去。未来语音合成技术将不断完善:自然度提高、复杂度降低、多语种文语合成、情感语音合成等。8 / 8