音频克隆阿里版-CosyVoice

最新推荐文章于 2025-07-09 22:12:00 发布

cmdos

最新推荐文章于 2025-07-09 22:12:00 发布

阅读量3

点赞数

CC 4.0 BY-SA版权

文章标签： it

原文链接：https://yours.tools/zh/morse.html

前面介绍过了音频克隆

IndexTTS： https://www.cnblogs.com/cj8988/p/18973016

ComfyUI_IndexTTS： https://www.cnblogs.com/cj8988/p/18973609

GPT-SoVITS：https://www.cnblogs.com/cj8988/p/18962212

今天再介绍要给音频克隆的开源工具：https://github.com/FunAudioLLM/CosyVoice

CosyVoice 是阿里云通义语音实验室研发的新一代生成式语音大模型，旨在提供高度拟人化、自然流畅的语音合成体验。

它将文本理解和语音生成技术深度融合，能够精准解析并诠释各种文本内容，将其转化为如同真人发声般的自然语音。

多样化的推理模式：

预训练音色： 提供多种预设的音色供用户选择，满足不同场景下的个性化需求（例如新闻播报、故事讲述等）。
3s 极速复刻 (Zero-shot Voice Cloning)： 仅需 3 秒的参考音频，就能快速克隆出特定说话人的音色，并用这个音色合成任意文本。这极大地降低了音色定制的门槛。
跨语种复刻 (Cross-lingual Voice Cloning)： 能够使用一种语言的语音样本来合成另一种语言的文本，同时保留原始说话人的音色和部分韵律特征。这是一个非常强大的功能，尤其适用于多语言内容创作。
自然语言控制 (Instructed Voice Generation)： 允许用户通过自然语言描述（如“用高兴的语气说”、“语速快一点”）来控制语音的风格、情感、语速、音调等，提供了更直观和灵活的控制方式。
多语言和混合语言支持： 除了中文外，还支持英文、日文、韩文以及多种中文方言（粤语、四川话、上海话、天津话、武汉话等），并支持跨语种和混合语言场景下的零样本语音克隆

安装：

代码下载：https://github.com/FunAudioLLM/CosyVoice

#虚拟环境搭建
conda create -n cosyvoice -y python=3.10

conda activate cosyvoice

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

#模型下载，这里下载最新的2.0模型

mkdir -p pretrained_models

#也可手动下载，然后放入相应位置就行 pretrained_models/CosyVoice2-0.5B

git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B

#运行：
python webui.py

可能出现的问题：没有找到cosyvoice.yaml。

修改一下：cosyvoice.py  中 __init__()  大约34行：添加一个

if not os.path.exists(model_dir):
　　model_dir = snapshot_download(model_dir)

hyper_yaml_path = '{}/cosyvoice.yaml'.format(model_dir)

if not os.path.exists(hyper_yaml_path):
　　hyper_yaml_path = '{}/cosyvoice2.yaml'.format(model_dir)