音乐驱动体系 Music XR Maker Music XR Maker 源于天琴实验室,天琴实验室是腾讯音乐首个音视频实验室,致力于通过 AI 科技提升音娱视听体验,也是腾讯音乐的首个音视频技术研发中心。天琴实验室在视频、视觉方面主要做的事情包括两方面,一方面是 Music XR Maker 以及图像渲染技术,另一方面是视频相关,比如视频理解、音乐视频化、视频质量提升等。1. 音乐驱动在数字人技术栈中的定位在数字人技术栈中,音乐驱动的定位可分为三个部分:① 形象构建:在形象构建过程中,涉及到的技术包括模型制作、拍照捏脸、拍摄建模、服饰生成等。② 人物驱动:人物驱动分成两个体系,第一个是基于中之人,背后有真实人物在驱动;第二个是 AI 驱动。在音频和视觉上,两个体系都有对应的实现:在音频声音这块,中之人直接用中之人的声音,AI 驱动在说话方面有 TTS 技术,歌曲歌声方面对应有歌声合成技术。在面捕这块,可以实时把中之人的面部表情捕捉到位,AI 生成则有说话口型生成、歌唱口型生成、说话表情生成、歌唱表情生成等。在动作和手势方面,也有相应的动作捕捉、手势捕捉,在音乐领域也有对应的舞蹈动作生成和乐器手势生成。③ 可视化渲染:当成功将建立的模型驱动起来后,需要让普通用户看得到模型,这就涉及到可视化渲染。比如虚拟偶像视频分发到各种视频平台、虚拟主播开虚拟直播、互动娱乐多人互动等。
2. Music XR Maker 音乐驱动研发体系建设Music XR Maker 着重音乐,可以理解为基于音乐内容做虚拟元素的创建,实质是属于 AI 驱动当中的音乐驱动,可以驱动的项目包括歌声合成、歌唱口型生成、舞蹈动作生成、乐器手势生成、歌唱表情生成等,还包括后续将会逐步迭代加入的场景灯效舞美。Music XR Maker 音乐驱动研发体系建设包括:① 数据源:建设 Music XR Maker 体系在数据层面分成两个部分:一是建模动作口型生成必须要有数据来源,目前大部分来源是动捕或面捕数据,还有手势捕捉数据等;二是既然把数据跟音乐关联,就要有非常强的音乐理解能力,包括音乐风格、情绪、音乐旋律、能量、歌曲的节奏、段落等。② AI 生成:有了基础数据后,就通过核心 AI 生成的算法把两方面数据进行关联。算法有两种类型:一类是端到端模型,包括分类预测模型、关联点预测、生成类模型等;另一类是 AI 编排生成算法,相对复杂且涉及多种步骤,还会使用到类似搜索或推荐等做法,可以分成召回、排序、重排三个阶段:在召回阶段,对输入信号进行关联解析数据;在排序阶段,根据歌曲节奏、歌曲热度、个性化等排序;在重排阶段,进行时序连贯性、段落关联性等调整。③ 3D 渲染:通过 AI 生成得到驱动数据后,要打通完整商业化链条还需要进行 3D 渲染,这是必不可少的一环。首先需要渲染引擎,像常用的 Unity 、UE,还需要专业的 3D 数据格式,像 SMPL、GLB、FBX 等;同时也需要生产力工具,像 Blender、Maya 等。④ 产品应用:对企业来说,最后一环就是真正落地应用到具体产品。落地应用分两种类型:一种是有用户参与的互动娱乐应用,以 QQ 音乐的音乐世界、音乐直播的云蹦迪直播、全民 K 歌的 KK 秀、TMEland 等为代表;另一种是在娱乐公司比较常见的虚拟人代表,比如已公开的扇宝、安可、持续在研发的虚拟人项目,曝光的场景包括虚拟偶像视频、虚拟直播、重要节点开虚拟演唱会等,都是虚拟偶像展现的地方。
面向商用的舞蹈生成如何做,有三点因素需要考虑:一是舞蹈动作本身是美观的动作;二是舞蹈动作和音乐的节奏、韵律要和谐一致;三是音乐和舞蹈的风格也要一致。所以在 AI 编舞时重点会关注音乐特征,包括音乐本身的特性、音乐节奏等,对舞蹈也会做对应匹配,包括舞蹈属性、风格、情绪、节奏快慢等。综合来看,商用舞蹈生成是在有原始音频文件后,通过一些方法提取音频特征,接着通过特征回归到舞蹈动作,最后将这些动作合理的拼接起来。
另外一套方案是基于生成的方案。输入一段音频信号,对应的原始样本音频会关联到对应的舞蹈,输入模型中经过一个过程,还原回最初的舞蹈动作。在这个过程中,要把音频信号特征和舞蹈信号特征尽量拉齐,尽量表达更广泛的含义。当音乐生成数字人舞蹈完成后,可以进行主观评测。针对同样一首歌,把生成的舞蹈和手 K 的舞蹈动作发给普通用户进行对比,选取两种方式对比:第一个方式是直接对比生成结果和手 K 结果,让用户选择哪种更好;第二个方式是把生成结果和手 K 结果分别进行打分。经过评测发现,两种方式的结论类似,生成结果已经接近手 K 的效果,总体效果不错。4. 数字人舞蹈的商用路径在数字人舞蹈的商用路径方面理解如下:首先,通过动捕棚拍摄、CP 手 K 效果最好,会应用到虚拟偶像、虚拟主播的精品 MV、形象宣传片,同时这类高质量舞蹈数据可以保留下来。第二,单目的视频复刻主要用到虚拟主播、虚拟偶像、用户互动娱乐场景的爆款舞蹈生成。生成数据可以经过人工筛选,把中质量舞蹈数据保留下来。最后,把之前保留下来的高质量舞蹈数据和中质量舞蹈数据,作为 AI 舞蹈生成模型的数据来源,生成的舞蹈数据就作为量产数据,用在虚拟偶像、虚拟主播、用户互娱场景,批量生产更多的舞蹈动作。