语音合成文档

语音合成：解决如何让机器象人说话的问题。其目的是能将任意文本实时地转换为自然语音输出，且输出的语音清晰可懂。

语音是信息传播的一大媒介。近年来，提供语音服务的语音系统迅速发展起来。传统的语音系统一般采用预录音回放技术，由于这种方法必须对信息文本事先进行录音，并存为声音文件，因此，所占用的存储空间很大。另外，一个更大的缺点是不能实时反映信息的更新，应用范围有很大的局限性。

现在的语音合成技术，无需对大量的信息进行录音，极大地减少了工作量和节省了存储空间，尤其是在信息内容需要经常变动的动态查询场合，如股市行情查询、有声Email系统，都是传统的预录音技术无法代劳的。结合其他技术，语音合成技术可以广泛应用于金融、邮电、工商、政府机关、交通、教育、游戏等领域。
一、语音很成技术方法

1。语音信号的波形合成：以语句、短语、词或音节为合成单元，这些单元分别被录音后直接进行数字编码，经过适当的数据压缩，组成一个合成语音库。采用数字存储技术存储基本的语音信息。在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来，生成高自然度的语句，这就是波形拼接的语音合成方法。为了节省存储容量，在存入机器之前还可以对语音信号先进行数据压缩。

输入语音->语音库（语音单元）语音的波形编码->挑选组合->回放->合成语音->播放

合成单元越大，合成的自然度越好，系统结构简单，价格低廉，合成语音的数码率较大，存储量也大，因而合成的词汇有限。在自动报时、报号、报站或报警等装置中，多采用这种技术.

2。语音信号的参数合成：根据语音产生的数学模型，利用短时平稳性，提出每帧语音信号的参数，这些参数经编码后组成一个语音参数库。输出时，从语音参数库中取出相应的参数，利用语音产生的数学模型恢复语音。共振峰合成和线性预测合成是该类合成技术中的重要方法。按照语音理论，对所有合成单元的语音进行分析，一帧一帧提取有关语音参数，这些参数经编码后组成一个合成语音库。输出时，根据待合成的语音的信息，从语音库中提取出相应的合成参数，经编辑和连接顺序送入语音合成器中，在合成器中合成参数的控制下，一帧一帧的重新还原语音波形。

        主要的合成参数有：控制音强的幅度、控制音高的基频和控制音色的共振峰参数。
       这种方式的速码率比波形编辑方式小的多，但是系统结构也复杂些，合成音质也差些。目前已有专用的芯片.
        3。语音的规则合成：这种合成方法以通过语音学规则来产生任何语音为目的，规则合成系统存储的是较小的语音单位的声学参数以及由音素组成音节，再由音节组成词或句子的各种规则。当输入字母符号时，合成系统利用规则自动将它们转换为连续的语音声波。
      由于语音中存在协同发声效应，单独存在的元音和辅音与连续发音中的元音和辅音不同，所以合成规则是在分析每一语音单元出现在不同环境中的协同发音后，归纳其规律而制定的。如共振峰的频率规则、时长规则、声调和语调规则等。

系统中存储的是音素的声学参数，以及由音素组成音节、由音节组成词、由词组成句子的规则；控制音调、轻重音等韵律的各种规则。规则合成方法的语音库的存储量更小，这是以牺牲音质为代价的，这种方式涉及到许多语音学和语音学模型，系统结构复杂。目前合成规则还不完善。（p76，P177表12.1）

二、语音的生成模型

1。共振峰合成方法：

利用语音信号的生成模型，将声道视为一个谐振腔，利用腔体的谐振特性，共振峰频率及其带宽，为此构造一个共振峰滤波器。对激励信号进行处理，可到合成语音。

2。线性预测合成生成方法（LPC编码）：将语音生成模型简化，将辐射、声道和声门激励进行组合，用一个时变数字滤波器来表示。

三、TTS合成方法：文语转换系统（Text-To-Speech）

文-语转换是语音合成技术的延伸，它能把计算机内的文体转换成连续自然的语音流。
若采用这种方法输出语音，应预先建立语音参数数据库、发音规则库等。需要输出语音时，系统按需求先合成语音单元，再按语音学规则或语言学规则，连接成自然的语流。文-语转换的参数库不随发音时间增长而加大；但规则库却随语音质量的要求而增大。

对输入文本进行分析切割出字词以后，通过语音合成方法把这些字词的发音合成出来，并串接起来，通过韵律调整，就可以得到较为自然的语句的发音。

1。文本分析的主要功能：主要功能是使计算机能够识别文字，并根据文本的上、下文关系在一定程度上对文本进行理解，将发音的方式告诉计算机；另外，还要让计算机知道文本中哪些是短语、句子，发音时到哪儿应该停顿，停顿多长等等。
2。文本分析工作的三个主要步骤：

（1）将输入的文本规范化，处理用户可能的拼写错误，并将文本中出现的一些不规范或无法发音的字符滤掉；

（2）分析文本中的词或短语的边界，确定文字的读音。

（3）根据文本的结构、组成和不同位置出现的标点符号，来确定发音时语气的变换以及不同音的轻重方式。

自动分词：对句子以系统词库为模板用最大匹配的方法进行分词，从系统词库中提取相应的读音、声调和时长信息作为控制参数。

多音字处理：对自动分词处理后的句子中余下的字，首先查找多音字表，若不是多音字，则检索标准字库，取得该字的读音和声调；若是多音字，则根据在多音字库中得到的信息从特征词库中读取相应的信息，选择恰当的读音和声调

变调规则库：根据变调规则库中的规则，对每个字的声调做一些调整，在词与词之间加入适当的停顿信息。
3。文本分析的输出：将输入的文字转换成计算机能够处理的内部参数(每个词的发音声母＋韵母＋声调)，便于后续模块进一步处理并生成相应的信息。常见的文本分析方法：二元文法、HMM和神经网络法等。

4。语音合成部分的主要功能：首先合成字的声母，再合成它的韵母，然后将韵母的声调调整到所需要的声调上，然后将声母和韵母连接起来得到最终合成的语音。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。