关于某语音合成方法的调研报告材料.doc
《关于某语音合成方法的调研报告材料.doc》由会员分享,可在线阅读,更多相关《关于某语音合成方法的调研报告材料.doc(8页珍藏版)》请在课桌文档上搜索。
1、word关于语音合成方法的调查报告摘要:本文是一篇关于语音合成方法的调查报告,在搜集整理大量相关文献的根底上,简要的总结了几种常用的语音合成方法,讨论各种合成方法的原理与算法,并简要分析各种合成方法的性能与适用场合。关键词:语音合成;种类;原理;算法;性能正文语音合成技术是利用电脑, 按规定的程序和指令, 人为产生语音的技术。语音合成从技术方式讲可分为波形合成、参数分析合成以与规如此合成等三种。1、波形合成波形合成法一般有两种形式。一种是波形编码合成,它类似于语音编码种的波形编解码法,该方法直接把要合成的语音的发音波形进展存储或者进展波形编辑压缩后存储,合成重放时再解码输出,称PCM波形合成法
2、。另一种是波形编辑合成,他把波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进展编辑拼接后输出。11 波形编码合成根本原理:波形编码合成方法以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进展数字编码,经适当的数据压缩,组成一个合成语音库。重放时,根据待输出的信息,在语音库中取出相应单元的波形数据,串接或编辑在一起,经解码复原出语音。性能分析:波形编码语音合成技术用原始语音波形替代参数,而且这些语音波形取自自然语音的词或句子,它隐含了声调、重音、发音速度的细微特性,也叫录音编辑合成,合成单元越大,合成的自然度越好,其质量普遍高于参数合成。且系统结构简单
3、,价格低廉。但合成语音的数码率较大,存储量也大,因而合成词汇量有限。通常只能合成有限词汇的语音段。目前用于自动报时、报站和报警等。12波形编辑合成根本原理:波形编辑合成方法将波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进展编辑拼接后输出。它采用语音编码技术,存储适当的语音基元。合成时,经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。算法简述:80年代末E.Moulines和F.Charpentier提出基于时域波形修改的语音合成算法。PSOLA就是基音同步叠加,它把基音周期的完整性作为保证波形与频谱平滑连续的根本前提。该算法按以下三步实施:对原始
4、波形进展分析,产生非参数的中间表示;对中间表示进展修改;将修改正的中间表示重新合成为语音信号。由于修改的参数不同,又分为TD-PSOLA、FD-PSOLA和LP-PSOLA。PSOLA是用于波形编辑合成语音技术中对合成语音的韵律进展修改的一种算法。如下图是利用PSOLA算法的语音合成系统的根本结构:图1 基于PSOLA算法的语音合成系统本质上说,PSOLA算法是利用短时傅里叶变换重构信号的叠结相加法。信号的x(n)短时傅里叶变换为:由于语音信号是一个短时平稳信号,因此在时域每隔假如干个例如R个样本取一个频谱函数就可以重构信号x(n),即可令:其傅里叶逆变换为:然后就可以通过叠加得到原信号,即:
5、时域基音同步叠加技术作为基音同步叠加技术的一种,通过以下步骤实现语音的合成:(1) 对语音合成单元设置基音同步标记。(2) 以语音合成单元的同步标记为中心,选择适当长度一般取两倍的基音周期的时窗对合成单元做加窗处理,获得一组短时信号。 (3) 在合成规如此的指导下,调整步骤1中获得的同步标记,产生新的基音同步标记。(4) 根据步骤3得到的合成语音的同步标记,对步骤2中得到的短时信号进展叠加,从而获得合成语音。 性能分析:PSOLA算法在编辑和拼接语音波形前能根据上下文的要求,对拼接单元的韵律特征作出调整,而且音库中的采佯波形中保存了一局部原发音人的语音特征这样使台成语音的自然度和清晰度都得到了
6、显著提高。2、参数分析合成参数分析合成多以音节、半音节或音素为合成单元。首先,按照语音理论,对所有合成单元的语音进展分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合成器中,通过合成参数的控制,将语音波形重新复原出来。参数分析合成方法基于声道截面积函数或声道谐振特性合成语音,如共振峰合成、LPC合成。这类合成技术在的比特率低,音质适中。为改善音质,开展了混合编码技术,主要手段是改善激励,如码本激励、多脉冲激励、长时预测规如此码激励等,这样,比特率有所增大,同时音质得到提高。参数分析合成
7、的主要优点是数据量小,易于实现韵律修改,但有限的参数很难表述自然语音的细微变化。2.1 共振峰合成根本原理:语音合成的理论根底是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔声道,由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率极点频率的分布特性决定着该语音的音色。音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率与其带宽作为参数,可以构成共振峰滤波器。再用假如干个这种滤波器的组合来模拟声道的传输特性频率响应,对激励源发出的信号进展调制,再经过辐射模型就可以得到合成语音。这就是共
8、振峰合成技术的根本原理。基于共振峰的理论有以下三种实用模型。1) 级联型共振峰模型在该模型中,声道被认为是一组串联的二阶谐振器。该模型主要用于绝大局部元音的合成。2) 并联型共振峰模型许多研究者认为,对于鼻化元音等非一般元音以与大局部辅音,上述级联型模型不能很好地加以描述和模拟,因此,构筑和产生了并联型共振峰模型。3) 混合型共振峰模型在级联型共振峰合成模型中,共振峰滤波器首尾相接;而在并联型模型中,输入信号先分别通过幅度调节再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。将两者比拟,对于合成声源位于声道末端的语音大多数的元音,级联型符合语音产生的声学理论,并且无需为每一个滤波器分设幅度
9、调节;而对于合成声源位于声道中间的语音大多数清擦音和塞音,并联型如此比拟适宜,但是其幅度调节很复杂。基于此种考虑,人们将两者结合在一起,提出了混和型共振峰模型。图2 共振峰合成器的系统模型性能分析:共振峰模型是基于对声道的一种比拟准确的模拟,因而可以合成出自然度比拟高的语音,另外由于共振峰参数有着明确的物理意义,直接对应于声道参数,因此,可以容易利用共振峰描述自然语流中的各种现象,并且总结声学规如此,最终用于共振峰合成系统。高级共振峰合成器可合成出高质量的语音,几乎和自然语音没有差异。但关键是如何得到合成所需的控制参数,如共振峰频率、带宽、幅度等。而且,求取的参数还必须逐帧修正,才能使合成语音
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 语音 合成 方法 调研 报告 材料
链接地址:https://www.desk33.com/p-6680.html