开源语音克隆大模型

最新推荐文章于 2025-04-01 22:50:36 发布

阿星_

最新推荐文章于 2025-04-01 22:50:36 发布

阅读量974

点赞数 6

分类专栏： AI大模型文章标签： AI大模型语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq503690160/article/details/144009426

版权

AI大模型专栏收录该内容

8 篇文章

订阅专栏

AI大模型

开源语音克隆大模型

一、趣丸科技与港中大（深圳）联合的MaskGCT

特点与优势
- 采用掩码生成模型与语音表征解耦编码的创新范式，在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果，在三个TTS基准数据集上都达到了SOTA效果，某些指标甚至超过人类水平。
- 秒级超逼真的声音克隆，仅需3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色，且能完整复刻语调、风格和情感。
- 更精细可控的语音生成，可灵活调整生成语音的长度、语速和情绪，支持通过编辑文本编辑语音，并保持韵律、音色等方面的极度一致。
- 基于10万小时数据集Emilia（全球最大且最为多样的高质量多语种语音数据集之一）进行训练，精通中英日韩法德6种语言的跨语种合成。
- 是一个大规模的零样本TTS模型，采用非自回归掩码生成Transformer，无需文本与语音的对齐监督和音素级持续时间预测。
应用场景示例
- 可以用于语音内容创作，创作者能够快速克隆出想要的音色用于音频作品，如制作有声读物等。
- 在多语言交流场景下，能够实现不同语种之间的语音转换，便于国际交流或者语言学习等。

二、阿里的CosyVoice

特点与优势
- 专注自然语音生成，支持多语言（中英日粤韩5种语言）、音色和情感控制，效果显著优于传统语音生成模型。
- 仅需要3 - 10s的原始音频，即可生成模拟音色，包括韵律、情感等细节，还支持跨语种语音生成。
- 以富文本或自然语言的形式，对生成语音的情感、韵律进行细粒度的控制，使生音频在情感表现力上得到明显提升。
- 提供了基模型CosyVoice - 300M、经过SFT微调后的模型CosyVoice - 300M - SFT、以及支持细粒度控制的模型CosyVoice - 300M - Instruct，满足不同场景需求。
- CosyVoice - 300M本身具备一定从文本内容中推断情感的能力，经过细粒度控制训练的模型CosyVoice - 300M - Instruct在情感分类中的得分更高，具备更强的情感控制能力。
- 很好地建模了合成文本中的语义信息，达到了与人类发音人相当的水平，通过对合成音频进行重打分，能够进一步降低识别的错误率，甚至在内容一致性和说话人相似度上超越人类。
应用场景示例
- 在语音助手场景中，可以根据用户需求生成不同情感和语调的语音回答，提升用户体验。
- 对于需要多语言语音转换的场景，如跨国客服等，能够方便地提供不同语种的语音服务。

三、基于SV2TTS的MockingBird

特点与优势
- 基于谷歌2017年发布的论文SV2TTS的技术原理，将克隆工作分成三个模块（Encoder、Synthesizer、Vocoder）进行语音合成。
- 安装相对简单，按照说明安装好Python环境（3.7及以上版本）、PyTorch框架、FFmpeg（简单训练时可能不需要）后，用pip安装依赖库即可。
- 在本地提供B/S使用环境，运行web.py 用浏览器访问本地8080端口即可操作，输入要合成的话术，可以当场录音或者上传已录好的声音（需wav格式），还可使用作者提供的训练好的模型。
应用场景示例
- 适合开发人员进行语音克隆技术的学习和初步试验。
- 对于有个性化语音克隆需求且愿意自行进行一定数据处理和模型训练的用户，可以通过收集目标人物语音进一步训练模型来满足需求。

博客等级

码龄16年

88
原创

129
点赞

351
收藏

122
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

python you-get下载视频
优快云-Ada助手: 推荐 Python入门技能树：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
python scrapy爬虫学习
阿星_: 教你使用 scrapy + DrissionPage 爬取51job 和过滑块验证码 https://blog.youkuaiyun.com/py_tiro/article/details/131635300
线段拼接算法
DecentFang: 将浮点数转换成字符串，来判断浮点数是否相等，老哥高啊
QGis读解。。。
guanyuni363: 我现在用QgsRubberBand话的多边形，用QgsVectorLayer画的shp地图，现在有个问题就是多边形把地图给覆盖住了，有什么办法让地图显示在多边形的上面吗？
QGIS源码编译
阿星_: 那么编译的时候报告LINK错误，无法解析的外部符号，一般是下面几种原因造成的： 1. 最常见的情况是要么没有指定引用库的路径，或者没有指定所以依赖的库文件名字。 2. 如果正确指定了lib库路径，以及lib库名，那检查一下该lib中是否有该符号的实现，也就是说头文件中声明了该符号，但是该库文件中却没有具体的实现。（7z打开lib查看里面的txt） 3. 如果库文件中确实实现了符号的定义，那么检查一下lib库的版本是否与正确(32位或者64位)。还有如果报告的是某一个函数无法解析，则要对比一下该函数在库中的实现与在头文件中的声明是否一致(特别是函数的参数个数与参数类型是否完全一致)。 4. 有一种情况就是在编译lib的时候，该lib是动态库，但是没有添加导出声明，导致该库中的函数并不对外导出(静态库不需要导出声明，加了反而会有问题)，那么使用者在链接的时候也会报无法解析的符号。 5. 还有一种非常隐蔽的情况，这也是我遇到的情况，在项目A中将一些基本的数据类型做了typedef，例如类似下面的定义： typedef unsigned char uint8_t; typedef unsigned short int uint16_t;

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。