打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
声音克隆:目前最好的中文声音克隆工具,WIN一键部署包 模型
userphoto

2024.01.26 北京

关注
图文参考:muhou.net 请低调白嫖

「幕后Muhou」专注于给后期爱好者挖掘一些好玩、实用的软件和期资源。关注我们,妙不可言!


学习资料下载地址:请查看文章底部

之前都在用so-vits-svc,可惜停止维护了,上星期看到一个听起来非常牛的AI声音克隆项目。

整个周末都在研究,从实践的结果来看,确实不错。

用了这个项目之后,感觉之前推荐的两个...突然不香了。

软件使用比较复杂,找了个视频大家参考使用:

需要下载以下内容(已打包,底部下载):

新版整合包:so-vits-svc整合包,不用自己配置环境,大大节省了时间

UVR5:用来对音频做人声和背景拆分的软件

项目介绍

这个项目的名字叫GPT-SoVITS,主页的一句话介绍是:

1分钟的语音数据也可以用来训练一个优秀的TTS(文本到语音)模型!

(少量样本声音克隆)

据开发者及各大博主测验,仅需提供 5 秒语音样本即可体验达到 80%~95% 像的声音克隆。若提供 1 分钟语音样本可以逼近真人的效果,且训练出高质量的 TTS 模型!

目前已获得 1.4k Star,看到很多人对其评价为目前最强中文语音克隆工具。


细说呢,具有以下特征:

  1. 零样本文本到语音(TTS)

 输入5秒的声音样本,即刻体验文本到语音转换。

  1. 少样本TTS

 仅需1分钟的训练数据即可微调模型,提升声音相似度和真实感。

  1. 跨语言支持

 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。

  1. WebUI工具

集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和GPT-SoVITS模型。

开源项目能做到这四点已经非常强了!

环境准备

Linux用户可以看GitHub主页。

这里主要介绍Windows系统的使用。

所以,你必须要有一个Win10+的操作系统。

另外配一张显存8G+ 的英伟达显卡。

软件安装

可以自己创建conda来安装,也可以使用“预打包文件” 。

为了尽量降低难度,这里使用预打包文件。我会在文末提供!

获取压缩包GPT-SoVITS-beta.7z后,使用解压软件解压即可。

预训练模型

目前,预打包文件里还没有包含所有模型,所以除了这个主体软件外,还需要下载一些模型。

这些模型包括ASR模型UVR5模型GPT-SoVITS 预训练模型,我会一并放在网盘里。

项目环境依赖(使用完整包不需要看这里):

GPT-SoVITS 依赖于开源音视频全能转码工具 FFmpeg。这个需要我们根据不同的系统进行手动安装。

conda 环境安装:

conda install ffmpeg

Ubuntu/Debian 用户:

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge 'ffmpeg<7'

Mac 操作系统用户:

brew install ffmpeg

Windows操作系统用户:需手动下载ffmpeg.exe和ffprobe.exe并将其放置在 GPT-SoVITS 根目录下。ffmpeg.exe下载地址:https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exeffprobe.exe下载地址:https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe

具体使用步骤:

上面的准备工作完成之后,把预训练模型放在pretrained_models文件夹里面。

1、打开项目根目录,将预置克隆音频放置根目录,然后双击go-webui.bat 运行项目。(可以发现它实际上执行了Python脚本webui.py)

2、语音切割演示,将音频文件路径填入“音频自动切分输入路径”下,点击“开启语音切割”

最终的切分结果会存放在项目Output下的slicer_opt目录下(切分成了20份)

3、开始转写,将切分路径填入“中文批量离线ASR工具”输入路径下,转写结果文件会在Output下的asr_opt目录下生成

4、切换到GPT-SoVITS-TTS标签,填写模型名称(角色名),再分别填入之前生成的切分目录和转写目录路径,开启文本获取-开启SSL提取-语义Token提取(这3个步骤,一步一步来,一个完成之后再点击下一个),最后开启一键三连

然后转到“微调训练”,设置适合自己显卡的显存,“开启SoVits训练”,然后SoVits训练结束后,再“开启GPT训练”

5、选择“推理”标签栏,设置GPT和SoVits的模型,勾选“是否开启TTS推理WebUI”,等一会回自动跳转到一个新的“推理界面”

6、填写参考音频信息(音频文件、音频文本、语种)、合成音频信息(音频文本,语音),点击合成语音,最后就完成了语音转换。

总结

大概在19年左右,就看过声音克隆的项目,但是那个时候简直是.... 制作难度非常高,效果没法听,噪声和机械声啊,假得很。

随着时间的推移,AI的火爆。后来出现了很多语音类项目。

但是依然面临各种各样问题。

要么就是素材要求高,训练难度大,稳定性差,泛化差。

要么就是速度虽然很快,但是效果很拉胯。

整体来说,普通人想做出高质量的声音克隆还是不太容易。

根据GPT-SoVITS的作者介绍,他做这个项目初衷是,做一个开源的,普通人也可以玩转的声音克隆工具。

以我角度来看,他基本做到了。

这工具确实做得不错,应该是我接触到的工具里面,使用相对简单,效果最好的声音克隆工具

这个项目可以跟一跟,已经有比较大的实用价值了。

附带一个工具,也是目前我感觉最好的提取软件了,当然也附带了模型包~


音乐去人声真是一个高频需求,之前总是在不经意间碰到索要如何制作伴奏乐的问题。以前可以用 Audition 之类的勉强解决,现如今时代变了,人工智能&大数据让这种需求变成了傻瓜式解决方案。
UltimateVocalRemoverGUI是一款开源的人声分离软件,采用了最先进的音源分离模型,以去除音频文件中的人声。该安装程序大小有3.5G左右,适用于 Windows 10 或更高版本,也可以在Mac和Linux上安装并运行,但是可能会有部分功能无法使用。
UltimateVocalRemoverGUI对于电脑的配置有一定的要求,建议使用至少有 8GB 显存的 nVidia GPU,只兼容 64 位平台,转换的时间取决于硬件的性能,程序所采用的模型是计算密集型的,请谨慎行事,并在程序运行时时刻关注你的电脑,确保它不会过热。


--------收集不易先点 卡片 后 领取--------


每天给大家分享免费的资源。

如果你觉得有帮助

点下【在看】给小编加鸡腿
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
OpenAI的新模型,要替代5万名转录员,会议纪要再也不会出错了!
现在你可以通过深度学习用别人的声音来说话了
禁止用于商业,两款免费工具,让你系统开口!
只要5秒就能“克隆”本人语音!美玉学姐不再查寝,而是吃起了桃桃丨开源
VALL-E:微软全新文字转语音模型可以在三秒钟内复制任何人的声音
学会这招,轻松将文字转语音mp3,还不快来get新技能
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服