打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
如果电脑说话的声音真的和人类一模一样

智能

如果电脑说话的声音真的和人类一模一样

John Markoff 8 小时前

除了正确发音之外,让电脑学会说话还要解决另一个更艰巨的挑战:在电脑语音中加入类似音调变化和情绪这样人类才具有的特征。

电脑说话的声音和人类能有多像?

2009 年,一个六人组成的 IBM 团队遇到了这个问题。该团队由语言学家、工程师和营销人员构成,他们当时正开始为该公司准备参加《Jeopardy!》节目(哥伦比亚广播公司益智问答游戏节目,已有数十年历史——译者注)的人工智能程序 Watson 设计一种能将文字转化成语音的功能。

十八个月后,这个团队精心合成出了一种声音。这个声音听起来不太像人类,但是也不像电影《2001太空漫游》(2001: A Space Odyssey)里人工智能电脑 HAL 9000 那样呆板空洞。Watson 系统用这个声音说出自己的答案,在饱受关注的《Jeopardy!》节目中击败了历史上胜率最高的两位人类选手。

电脑的便携性越来越高,而用户也越来越忙碌,需要更多地使用语音交互与电脑进行互动。在这样的背景下,当下越来越多软件设计师要面对一个挑战:为电脑创造“性格”。

如今的机器可以聆听、理解并说话,这不仅仅是电脑和智能手机才具备的功能。我们日常生活中的很多事物都具备了语音功能,比如汽车和玩具。当然智能家电也能说话,比如居家陪伴型机器人 Pepper 和 Jibo,还有亚马逊 Echo 项目中的智能播放器 Alexa。

我们所谓的“对话代理”(conversational agents)是一种可以理解自然语言和人类言语的软件程序,它能够响应人类的语音命令。在打造这个软件系统的过程中,一个新的设计科学渐渐形成。

人机交互设计领域的研究人员在打造“对话代理”软件程序的过程中发挥主导作用。不过打造这个程序的过程更像是一门艺术,而不是一门科学。

我们为电脑打造计算机化的声音,使它能够以与人类相似的声音读出短语和词组。有了这个功能,电脑就能播放天气预报或者在为汽车导航时与用户交流。然而当电脑在朗读比短语词组长的句子时,我们还无法保证它的声音听上去与人类正常声音别无二致。

大多数软件设计师承认,他们现在依旧面临一个困难:如何跨越“恐怖谷”(uncanny valley)。恐怖谷理论认为,电脑程序具备的几乎与人类非常相似的声音反而会令我们感到烦扰和刺耳。“恐怖谷”这个词由日本机器人专家森政弘(Masahiro Mori)在 1970 年提出。他发现在图形动画越来越像人类的过程中,有一个时间点上人们会觉得这些类人化的东西惊恐且怪异。这之后人们才会对其进行改进,使其与人类影像一模一样。

这个过程也适用于让电脑说话这件事。

ToyTalk 是旧金山的一家技术公司,主要为类似于芭比娃娃这样的物品打造数字化语音。该公司高级语音科学家布莱恩·兰纳(Brian Langner)表示:“我愿意让数字化声音显得有些刺耳且不和谐。人们的要求总是很高,当机器能做好一些事情时,他们常常就会希望机器可以完美地处理所有事情。”

除了正确发音之外,让电脑学会说话还要解决另一个更艰巨的挑战:在电脑语音中加入类似音调变化和情绪这样人类才具有的特征。语言学家称之为“韵律”,也就是能在发音过程中正确使用强调、语调和感情的能力。

即便取得了不少成绩,但是今天我们依旧无法让人工智能程序在发音时完整无误地呈现出句子背后的情绪。第一个实验性研究采用了机器学习算法,还利用了大量充满人类感情语音的数据库。目前研究刚刚有些成果,可供语音科学家进行分析和探讨。

IBM的寻找 Watson 声音之旅
2009 年,IBM 公司一个由六人组成的团队开始为人工智能程序 Watson 寻找合适的声音。数月之后,Watson 在宣传铺天盖地的益智问答游戏节目《Jeopardy!》中用研究人员精心合成的声音作答,成功战胜该节目历史上胜率最高的两位人类选手。
你可以在原文中听到 Watson 的四段音频。

打造合成语音的方式有很多种。想要保证合成语音听起来自然顺畅,质量最高的一种技术是利用人类的声音。研究人员要对人类语音进行录音,记录下人类以多种方式说话过程中的句子细微构成,然后形成多个数据库。一个献声的配音人员要花费至少十到上百个小时的时间,才能为一个数据库完成录音。

在 2013 年的科幻电影《她》(Her)中,我们能看到为声音加入无形情感元素的重要性和难度。在这部电影里,杰昆·菲尼克斯(Joaquin Phoenix)扮演的孤独的办公室职员爱上了萨曼莎(Samantha),一个先进电脑操作系统的合成语音。

实际上,影片中的电脑语音最终由斯嘉丽·约翰逊(Scarlett Johansson)进行配音。该片导演斯派克·琼斯(Spike Jonze)最初选定的声优演员并不是约翰逊小姐,但她未能展现出琼斯导演想要呈现的那种机器与人之间浪漫爱情关系,因此被导演替换掉。

苏格兰计算机科学家艾伦·布莱克(Alan Black)目前是卡耐基梅隆大学语言技术学院的教授。他的早期研究成果奠定了现代语音合成技术的基础。

布莱克先生承认,虽然科学家已经在语音合成领域取得了重大进步,但语音合成系统目前还无法完美地呈现出与人类一模一样的声音。他说:“问题在于,我们无法很好地掌控与语音电子合成器说话的方式,无法让合成器带有感情的进行发音。”

对于像 ToyTalk 公司研发人员这样设计娱乐角色的人而言,错误可能不是致命的问题。他们的目标是娱乐大众,甚至就是要让用户开怀大笑。但是对于那些旨在与人类在商业领域进行合作或者陪伴人类的程序而言,这个挑战就要微妙敏感得多。

研发这些程序的设计师经常表示,他们不想欺骗愚弄那些与机器交流的用户,但是依旧想在用户和机器之间打造一种类人的关系。

比如,IBM 最近就投放了一个电视广告。广告中呈现了一个对话,交流的双方是极具影响力的创作型歌手鲍勃·迪伦(Bob Dylan)和 Watson 人工智能系统。当 Watson 系统想要开始唱歌时,迪伦先生突然离开了舞台。事实证明,Watson 的确是个差劲的歌手。

这个广告很好地表达了 IBM 的目标——他们希望将 Watson 系统打造成不是与人类十分相像的专家学者。他们希望 Watson 的声音听起来不那么像人类的声音。换句话说,他们不想让 Watson 的声音给观众毛骨悚然之感。

对于 IBM 的研究人员来说,让 Watson 系统参加《Jeopardy!》节目是个特别的语音合成挑战。虽然 Watson 系统在回答问题时都会采用很短的词语,但是这其中却充满了大量可能导致发音错误的陷阱。

安迪·亚伦(Andy Aaron)是 IBM 研究院认知环境实验室的一名研究人员。他说:“我们要让 Watson 正确地读出每个字。降低出错率是我们面临的最大问题。”

IBM 研究院的研究人员安迪·亚伦表示,发音错误是他们帮助 Watson 系统准备《Jeopardy!》比赛过程中遇到的最大的问题”。图片版权:Cole Wilson/《纽约时报》

为了让发音错误的出现几率尽可能地接近零,研究团队的几个成员花了一年多时间,为词语的正确发音打造了一个宏大无比的数据库。类似于低糖度香槟(brut Champagne)、及时行乐(carpe diem)和声音低沉(sotto voce)这样的词语是导致 Watson 系统发音错误的潜在雷区。正因为有这样的词语存在,Watson 系统才不能盲目地按照发音指南朗读数据库中的所有词组。

研究人员面试了 25 名配音演员,想要找到一个独特的人类声音以便为 Watson 打造属于自己的声音。他们先缩小范围,留下自己最喜欢的配音演员。接着他们对这名配音演员的声音进行处理,某些时候甚至会改变声音频率以便使其听起来像是童声。

IBM 研究院 Watson 多模式实验室的高级管理人员迈克尔·皮陈(Michael Picheny)说:“几乎每个人都强烈反感这种类型的人物角色。我们不希望 Watson 的声音听起来太过于热情。”

研究人员想要的机器声音是缓慢、坚定的。更重要的是,这种声音要“令人愉悦”。相比工程师而言,他们最终更多扮演了艺术家的角色,对 Watson 系统的声音进行了微调。他们合成的声音明显就是电脑的声音,但是听起来乐观向上,甚至有一些活泼明快。

皮陈先生说:“一个好的人机界面就是一个艺术品。而我们也应该以对待艺术品的方式看待这种人机交互模式。”

随着语音技术的不断进步,全新的引人注目的应用软件也会渐渐出现。甚至来说,这些新的软件可能会令人类感到焦虑。

Imperson 是一家位于以色列的软件公司,他们为娱乐业研发健谈多话的人物角色。目前,该公司正在考虑进军政坛。Imperson 认为在选举期间,在社交媒体平台使用虚拟替身角色的政客能吸引更多支持者。这个虚拟替身角色能够清楚地说出候选人在任何合理问题上的态度和看法。

该公司联合创始人兼首席技术官埃亚勒·法尔福(Eyal Pfeifel)表示:“听众想要和候选人之间开展互动式对话。人们能够理解虚拟角色表达的意思,而且这其中不存在恐怖谷理论提出的问题。”

题图版权:Cole Wilson/《纽约时报》

翻译:康平

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
IBM Watson认知计算平台,你想知道的这里都有了
IBM:人类与机器迈向认知新时代
看IBM如何为Watson建立商业模式
最适合计算机的声音,应该是什么样的? | 雷锋网
让机器像人类一样思考:AI人工智能
IBM沃森负责人Mike Rhodin谈人工智能的未来
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服