简单来说
基于变换器的 TTS 模型 VALL-E 只需对任何语音进行三秒钟的采样,就可以生成每种语音的语音。
日这是在听起来更自然的 TTS 系统方向上的重大进步。
然而,Microsoft 提供了一些正在使用的模型示例,很明显,这代表了 TTS 技术的重大发展。
Trust Project是一个致力于建立透明度标准的全球性新闻组织团体。
自第一个文本转语音 (TTS) 模型发布以来,研究人员一直在寻找改进这些系统生成语音方式的方法。Microsoft 的最新型号VALL-E在这方面向前迈出了重要一步。
VALL-E 是一种基于变压器的 TTS 模型,它可以在仅听到该语音的三秒样本后生成任何语音的语音。日这是对以前模型的重大改进,以前的模型需要更长的训练时间才能生成新的声音。
此外,语音的语调、魅力和风格在生成的语音中都保持完好无损。日这是使 TTS 系统听起来更自然的重要一步。
该模型基于变形金刚并具有 Dale-1 外观。不要与基于扩散的 Dalle-2 相混淆。代码仍然缺乏。用户对他们是否会发布它持怀疑态度。
但是,Microsoft 已经发布了几个现实模型展示示例,很明显这是TTS 技术的重大步骤。
示例#1:
示例# 2 :
示例#3:
Lorem ipsum dolor sit amet, consectetur adipisicing elit。建筑师,智者。
Lorem ipsum dolor sit amet, consectetur adipisicing elit。建筑师,智者。
免责声明
此页上的任何数据、文本或其他内容均作为一般市场信息提供,而非投资建议。过去的表现不确定是未来结果的推。
联系客服