打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
被AI颠覆的用户体验,到底有多爽?

    AI时代智能硬件的趋势是什么?

    • 语言AI为什么极其重要?

    大家早上好!我们一直在做的事情,是让表达与获取信息变得更简单,而表达和获取这两件事都起源于语言,代表着语言的输入与输出。所以,我今天的分享,将沿着语言的输入与输出这两条正在无限延伸的线展开。

    一、AI驱动硬件,颠覆用户体验

    1.AI录音笔

    虽然说录音笔是个小众市场,但有了人工智能的加持,录音笔变成了电商爆款。

    我们今年出品了一款人工智能的加持的AI录音笔,它在双十一多个主流电商平台上取得了单品销量第一的成绩,同时复购率还很高。

    相对传统录音笔来说,我们的AI录音笔不仅有双麦克风阵列,同时还有AI降噪、实时转写文字、云端存储和搜索、智能编辑、同声传译等功能。

    这款产品上线后,整个市场都改变了,索尼、爱国者、纽曼都加入进来,成立了一个联盟,而搜狗成了盟主。

    根据我们的调查,我们的AI录音笔上线之前,整个录音笔市场销量是逐年下滑的,市场保有量只有400万支。

    从3月份我们上线第一代产品开始,主流电商平台的录音笔搜索量开始上升,到12月份我们发布了第二代产品,开始一点点变硬,就像之前手机从功能机走向智能机一样。而且,加上AI能力的注入,带来的注定是颠覆式的体验。

    2.AI时代个人硬件的趋势

    有了AI的注入,C端消费品也发生了变化,这个变化主要有两大趋势。

    ① 变得更加便携

    以前放在桌上的PC机很大,随后智能硬件开始走向笔记本、iPad、手机,甚至开始走向可穿戴,因此未来个人硬件的趋势是越来越移动化、便携化。

    ② 拥有更强的IO能力

    从以前的计算能力走向传感器能力,并且基于AI的处理能力,将从人去适应机器,变成机器适应人,最终机器接管人的感官,成为人的助理。

    AI对硬件会产生什么影响呢?对于未来10年路径,我的畅想是智能硬件从手机走向手表、耳机,到未来走向眼镜,这可能会逐渐改变我们以手机为中心的使用方式,比如眼镜和耳机会取代手机作为我们接触外界信息的通道。

    硬件背后,是人去感知这个世界。

    除了有图像和声音之外,很重要的就是语言,它是我们与世界交互的一种抽象方式。而且,只有人类能够处理语言。

    亚里士多德曾讲到,“语言是心灵印象的符号,是人类思维的工具,是知识的载体。有了语言,人类社会才能沟通交流。不管是我们生产的语言,还是计算机处理的语言,语言都是最难的一件事情,是人工智能皇冠上的明珠。”

    图灵测试中提到,机器能够用语言与人交流,就代表它拥有智能。

    今天我们的人工智能还不具有创造力和通用的推理能力,但是可以做这样一个猜想:

    只有当机器掌握了语言之后,它才能够完整地拥有创造力和推理能力。

    不会讲话的机器,你会认为它智能吗?当然不会。因此,语言在智能当中极其重要,这也是人与动物的重大区别。

    二、语言AI的发展趋势

    我们会看到,以语言为核心变成了人工智能发展路径的关键节点。我们做输入法、做搜索,其实都是在处理语言,都是为了帮大家更好地表达、更好地获取信息。

    1.语言的自然交互和认知问题

    关于语言,我有两部分内容要分享给大家:

    第一,自然交互。

    自然交互让人跟机器之间能够用语音、图像、手势等各种方式产生交流,其中用到了语音、图像技术,也包括视觉技术。

    第二,认知问题,我们叫做知识计算。

    基于语言,机器能够进行问答和对话,机器翻译是认知技术入门的门槛。有了更好的感知技术,机器会从手机走向新的智能硬件;有了更好的认知技术,机器对知识会产生理解和推理,尤其是在垂直领域拥有问答的能力。

    智能硬件新的硬件形式与新的对话和问答能力,未来会走向智能助理,这也是整个AI行业在产品层面上最明珠的地方。

    苹果大概在2006年就开始推出智能助理,到今天Google、百度、阿里、小米做这样的音箱产品,核心都是在做智能助理。但是从外壳上来说,我认为并不是最好的方向。

    布局时,语音、图像都有大量的技术要去做,包括语音识别、语音合成、语音变声,包括搜索独有的辨别能力。

    其中,语音识别是自然交互中最自然的事情。搜狗输入法,今天我们做到了每天超过8亿次的使用量,而且这个数字上升很快。春节期间,可能就会超过9-10亿次的日请求量。我们也积累了大量的数据,包括了语种、方言等各种能力。

    在知识计算之后,我们强调一个核心观点,就是机器做阅读理解之后做问答,传统的搜索是通过关键词给你10条链接,随着技术的进步,我们整个处理能力会从词变成句子、段落、篇章,用户的表达也可能会转换成句子,机器的阅读理解也会走向篇章和整个文章体系,这是技术进步带来的机会。

    2.语音识别

    语言识别听着好像是一件很简单的事情,但其实并不是纯粹的单点技术,在识别过程当中,对于语音、语义的理解还有一些点需要攻克。

    首先,人声分离,如果是两个人在对话,机器要能识别不同的人,能动态地去判断是第一个人还是第二个人。

    其次,机器要能够识别掌声、笑声或其它声音,帮助我们理解内容。

    最后,中英文混合是非常难的事情,从传统的深度学习网络数据中得不到一个混合的模型,所以要在机器中加入一些特定知识,来改变这个系统。

    在这个识别背后,还会有更复杂的技术需要我们解决。比如我们做录音笔时会考虑很多问题,其中一个就是如何让机器在嘈杂的环境里听清人的声音,帮助后面进行识别,这也是我们最前沿的技术。

    传统的硬件是用麦克风矩阵实现的,用多个麦克风进行中间的数字计算、信号处理。今天依靠人工智能,我们有了新的方法,我们的工程师在现实场景中对4万种噪音进行了学习,使得机器有能力分辨噪音。

    原始的机器识别、处理是不够的。为了让录音笔与声音的交互更好,我们有了新的算法,降噪技术在实验中已经完成了,未来的新款录音笔会给大家带来极致的AI体验。

    从语音识别里面,除了语音识别外,我们往前做了很多前沿的事情,比如语音的合成,它可以惟妙惟肖地用人的音色进行表达。

    3.语音合成

    做技术的人都知道,以今天的AI能力,机器不会有非常精准的认知理解,大家听到的可能还是转述师那种毫无情感的声音,为了让合成的声音更加具有感情、更加像本人真实声音,我们使用了一种新技术:声音皮肤。在技术上,我们称之为特征的提取能力。

    比如,大家在得到听梁宁的课程,其实就是让另外一个人读一篇文章,再把声音皮肤附到这个声音里面来,使得合成的声音可以表达他的情感,经过合成之后,最后由梁宁来呈现。

    这种做法能改善整个音频节目的生产环节,表演者和生产者做到一定的分离,避免因为人员离职、生病等带来的各种不确定因素。

    这种情况下,使得我们每个人在互联网上不仅可以换成其它形象,也可以换成自己想要的任何一个声音形象。

    在生活中也有实际用处,年底马上要开年会了,如果你要表演唱歌,但是五音不全怎么办呢?可以把你的声音特征做一次提取,然后放到《蓝精灵》歌里,会比你自己唱得好听。

    这样一些技术,使得在交互中间能够做到人机结合,使得制作能力能够放大。

    4.从语音变声到视频合成

    当然,除了声音的识别、合成、迁移以外,我们也做了一些更前沿的工作,即从语音走向了视觉,从语音变声走向视频合成。这就不得不提搜狗的分身,这是我们产品上一个重大的进展。

    搜狗分身发展到现在经历了多次技术迭代,从最早给新华社做主持人,到给央视做主持人,再到第二代能够让它更丰富地表达;

    第三代,能够站起来有手势;

    到第四代之后就开始做到了多语言、多场景的播报能力;

    到了第五代之后开始能够做交互,比如平安普惠的保险项目,服务人员已经被机器取代了,实际你在保险签约的时候,是机器人跟你做交互回答。

    我们将很快发布第六代产品,它将拥有大角度、大幅度的动作能力。

    这样的技术是机器在取代人上面的一次重大应用。所以,这里面我们可以看到,以语言为核心,背后配上语音、人的表情、肢体、唇语,是能够使得人机交互实现更自然的状态的。

    在未来,也许不到10年时间,我们将会构建这样一条路径:自然交互会从文字走向语音、图像理解,大家看到的录音笔、同传、合成主播等,其实是在语音图像的交互能力里面做增强,背后还是语言。

    另外一条道路就是认知能力不断提升,使得从搜索走向、辅助医疗、辅助问答以及合并语音图像技术,最终走向行业终极的理想,就是每个人都拥有一个个人助理。

    在一些垂直领域当中,能够帮你去做秘书的工作,或者是成为你的分身,跟世界进行沟通。

    我们也会持续布局语言AI下的产品,为大家呈现颠覆体验的个人助理,用机器帮助每一个人,让表达、获取信息更加简单。谢谢!

    *文章为作者独立观点,不代表笔记侠立场。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
全球首款同传翻译笔京东515开卖 预约已破11万
投喂4万种噪声,20种语言方言实时转录,搜狗「开挂」录音笔这样炼成
0.5秒闪译,12倍速转写,科大讯飞一口气发布五款超强AI产品
科大讯飞用AI颠覆录音笔行业:实时转写 分场景降噪 边录边译
没想到这家老牌AI公司越来越不“纯粹”了
Sogo inside:搜狗开放听写服务成立AI创新联盟
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服