打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
VALL-E:微软全新文字转语音模型可以在三秒钟内复制任何人的声音
userphoto

2023.01.11 安徽

关注

自从第一个文本到语音(TTS)模型发布以来,研究人员一直在寻找让计算机系统产生语音的方法,微软的最新模型VALL-E是在这方面的一个重要进步。VALL-E是一个基于转换器的TTS模型,只需听到三秒钟的声音样本就能生成任何声音的语音。这比以前的模型有很大的改进,以前的模型需要更长的训练时间才能生成新的声音。

对于计算机行业来说,VALL-E是一项惊人的技术壮举,有可能改变我们与数字媒体互动的方式。语音的音调、魅力和风格都在生成的语音中保持不变,这是在使TTS系统听起来更自然方面迈出的重要一步。

微软会不会基于这项技术有更多运用目前还不清楚,然而,微软已经发布了该模型的几个实例,很明显,这是TTS技术的一个重大进步。

您可以在这里收听范例:

https://mpost.io/vall-e-microsofts-new-zero-shot-text-to-speech-model-can-duplicate-everyones-voice-in-three-seconds/

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
陈根:3秒实现语音合成,说的和真的一样?
推荐两个文本转语音工具
浙大学霸本科生顶会研究!只需20分钟音频,AI就能逼真模仿你的声音
Adobe最可怕的黑科技,被微软进化了
那段记忆中的声音:单式评书再现江湖背后的AI技术
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服