回顾：AI时代，语音合成如何让机器声有情感、更自然？丨AI公开课

语音合成又叫文语转换，是将文本转换成语音的一种技术，是人机交互中必不可少的一个环节。随着技术的发展，现在合成语音的自然度和音质都得到了明显的改善。汽车导航内嵌的语音系统、智能手机语音助手、读书软件等等，这些应用的实现都离不开语音合成。时下热门的AR、机器人、可穿戴设备等也为语音合成技术落地提供了更广阔的市场。

不过，当前语音合成技术还有很多痛点急需要解决，让机器拥有自然、有情感的声音，依旧是语音合成技术最大的难点。语音合成的现状是怎样？一个优质合成音是怎样诞生的？AI浪潮下，你可以如何玩转语音合成？AI公开课第一期，我们为你请到科大讯飞云平台技术服务专家——汪舰为你解答这些问题。

课程介绍

课程大纲(包括但不限以下内容）

1、语音合成技术的前世今生。

2、语音合成技术痛点是什么？

3、以贤二机器僧发音人为例，揭秘一个合成音是怎样诞生的？

4、语音合成技术优秀案例解析，以QQ阅读，小程序：AI随身听等为例。

嘉宾介绍

汪舰

云平台技术服务专家

江湖人称“水哥”

毕业于中国科学技术大学，就职于科大讯飞云平台事业部。深度参与讯飞开放平台语音识别、语音合成、语音唤醒等多项产品研发。

内容回顾

以下内容整理自本期公开课：

什么是语音合成

语音合成也叫文语转换（Text-To-Speech），简称TTS，简单理解就是“让机器说人话”。

语音合成用在哪里

别看语音合成技术近年来才被广泛应用，实际它已经有两百多年的历史了。

那么语音合成都在我们生活中的哪些地方出现过呢？我总结了三个方面：

第一个是APP，比如QQ阅读这样的读书应用，滴滴出行高德导航这种导航播报类的app；还有以siri为代表的语音助手，都是语音合成功能的常见载体；

另外一类是智能硬件产品，比如非常火的机器人领域，我们都希望机器人可以像真人一样和我们进行交流，所以合成功能基本就是他们的必备能力。

还有一些特殊领域也非常需要语音合成，比如视障阅读，对于视障人士来说，听书比摸书要高效得多。

语音合成里的技术门派

将语音合成技术门派按武侠风格可以划分为：气宗和剑宗。想当年气宗草创之初，创始人的想法很简单，人怎么发声的我就让机器怎么发声，基本就是山寨人体的思路。

但是有拨人认为，气宗这么搞没有前途，而且成效太慢，可操作性太差了，这拨人就是剑宗。剑宗表示，我们完全可以直接找人把语音里面所有的基础片段都录好，然后按照需要直接拼就行了。

技术门派之气宗

先来看看气宗具体是怎么玩的：他们用气囊代替肺，接根管子代替气管，管子末端再装个气门代替声带，气门后面再装个橡胶做的碗状结构来模拟口腔。

这套系统的操作非常简单，一只手掐住脖子就是气门，控制基频高低；另一只手操作口腔就是那个橡胶碗，控制发什么音；剩下的那个用来模拟肺的气囊就只能用脚来踩了。

基频又是什么呢？让我们举个简单的例子，汉语普通话除轻声以外有四种声调，2声的基频就是前低后高，4声的前高后低，3声是先高后低再高。掐气门的手捏得越紧，声道越窄，振动的基频就越高。不过这当个发明爱好还可以，实际用起来肯定不靠谱。但是随着科学的发展，计算机技术开始出现，逐渐普及，给很多领域都带来了全新的变化，语音合成当然也不例外。

技术门派之剑宗

剑宗表示，我们完全可以直接找人把语音里面所有的基础片段都录好，按照需要直接拼就行了。这个基础片段可长可短，可以是音素，可以是音节，甚至是声韵母的拼音。这种方法对人的要求就简单多了，基本上会拼图就能操作，所以也比较速成。

但是在没有计算机的时代，大量单元的管理和拼接是很麻烦的工作，所以每个基础单元一般只保存了较少的样例供选择。那么在合成千变万化的句子的时候，语音的起承转合难免就有些生硬和突兀，拼出来的语音虽然能让人听懂，但很难做到自然流畅。

计算机出现后这个问题得到有效的解决，有了计算和存储能力更大的计算机，他们就可以进行超大规模音库的制作，包括语料设计、音库录制、精细切分、韵律标注；同时进行规则统计，以此来针对不同发音人进行细致调整。这样合成出来的音频音质比较好，一般句子的自然度也不错。

所以在此后很长一段时间，剑宗对气宗在合成音的音质上占据了绝对优势，气宗只在嵌入式的小系统上保留着一小块领地。这种状况直到后来气宗成功引入了在语音识别领域大放异彩的HMM（隐马尔科夫模型）才得到根本改善。

语音合成技术痛点是什么

从合成的发展历史来看，表现力、音质、复杂度和自然度一直是合成技术所追求的四点。其中随着技术的演进，复杂度、自然度、音质三个方面都已经取得了非常不错的成绩。目前各大技术提供商更多的是在研究如何提高合成音的表现力，特别是语气和情感方面。

一条音频是如何合成出来的

这里其实包括了两个过程，一个是语音库的制作过程，一个是使用语音库将文本变成音频的过程。语音库的制作首先需要收集客户的需求，确定音色、风格、使用领域、产品特性、角色要求；然后找到配音员试音，根据需求设计试音文本，收集录音，通过实验分析确定发音人是否合适做音库；然后和客户确认实验效果是否能接受；最后投入音库生产线，录音脚本设计、录音资源训练、效果优化。

然后看一下真正的合成过程：输入文本后首先需要按照词典规则对文本进行语言处理，主要模拟人对自然语言的理解过程，包括文本规整、词的切分、语法语义分析，使计算机对输入的文本能完全理解，并给出后续步骤所需要的各种发音提示。然后是韵律处理，就是为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。最后根据前两部分处理结果的要求输出语音，即合成语音。

语音合成优秀案例解析

QQ阅读演示视频

小程序：AI随身听演示视频

讯飞开放平台的语音合成技术

讯飞开放平台目前以SDK的形式提供语音合成能力

目前提供支持8个平台的合成SDK，免费开放36个在线发音人，还有15个离线发音人可供购买使用，其中发音人xiaoyuan更是支持中英文混合合成。支持各种语言方言13种。另外对于有特殊要求的产品，我们还提供特色发音人的定制服务，例如很多小伙伴比较熟悉的高德地图林志玲的声音，还有之前PPT出现龙泉寺贤二的发音人。

有需要的开发者可以方便的在开放平台官网下载集成使用。

精选问答

Q1：从寻找声优录音，到标注再到训练，一个成熟的商业可用的语音合成的时间成本大概是多少?

A：时间成本最快1个月左右，不包括客户安排配音员的时间。

Q2：在线合成语音，每千字需要多少流量，可用自建转换的语音库吗？

A：一般人的语速是是每秒2—3个字，千字的话就是500s，如果是16k16bit的音频，压缩后就是1563k左右的音频，加上2k左右的文本，以及消息冗余，大概约等于1.5M 。

Q3：中英文混排的文档，合成效果明显没有单独英文的或者单独中文的好，有没有什么优化技术？

A：：中英文混读对发音人要求较高，需要原始发音人是双语的。讯飞在考虑制作双语发音人。算法层面也一直在优化，目前已经开放的支持中英文混合合成的发音人：xiaoyuan。

Q4：我想问关于情感语音合成的问题，我现在主要是在中性语音的基础上修改参数来合成情感语音的，但是效果不是很明显，想请问一下讯飞对情感语音合成有没有现阶段一个比较好的解决方案呢？

A：情感合成我们现在已经是支持的了，了解我们SDK的同学也应该已经看到了相关的设置接口。但如果大家有需求的话可以付费定制。

AI公开课之语音合成录屏（完整版）

公开课下一期主题是语音识别，关于语音识别你想了解哪些内容？想听的什么？可以留言告诉小A哦！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。