给大家分享一个效果很棒的文本转语音开源模型:MaskGCT!这是由港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆。
与先有的文本转语音模型相比,MaskGCT 生成的语音更自然、更连贯。而且这个开源模型,支持控制生成的语音的总长度、语速、停顿、预期等特征。可以修改已经生成的语音或者支持声音克隆。
话不多少,直接点开下面视频看看效果。
01 音色模仿
可以点开如下视频听听声音模仿的效果,预期、停顿、音色还原的都非常好
PS:请忽略背景中 dangdang 的杂音,是我在录制的时候我家猫在扒柜子
02 模拟情绪
可以通过声音来辨别人目前处于何种情绪状态,比如愤怒、开心、恐惧等。MaskGCT 对此也实现了精准模拟,请看如下这个例子。
03 模仿说话风格
咖喱味儿、大舌头的发音,也能精确模拟。
04 MaskGCT 的架构
MaskGCT(Masked Generative Codec Transformer)的全新非自回归式(NAR)文本到语音(TTS)模型。MaskGCT 的设计旨在解决传统自回归(AR)和非自回归(NAR)TTS系统的不足之处。
MaskGCT采用了两阶段架构:第一阶段模型使用文本预测从语音自监督学习模型中提取的语义 tokens;第二阶段则在语义 tokens 的条件下生成声学 tokens。
MaskGCT 能够实现在没有对齐监督的情况下,可以直接合成出高质量的语音。
支持语音内容编辑,借助遮罩与预测机制,通过对语义tokens的部分遮罩,MaskGCT可以实现零样本语音内容编辑。
能够语音转换,MaskGCT支持零样本语音转换,能够根据参考音频将源语音转换为目标语音的音色,而保持语义内容不变。
05 相关地址
你可以通过如下链接访问论文、上方视频中的案例展示、下载模型、自己进行 Demo 展示。
Git:https://github.com/open\-mmlab/Amphion/tree/main/models/tts/maskgct
项目主页:https://maskgct.github.io/
论文链接:https://arxiv.org/abs/2409.00750
Demo:https://huggingface.co/spaces/amphion/maskgct
模型下载:https://huggingface.co/amphion/maskgct
**历史盘点**
逛逛 GitHub 每天推荐一个好玩有趣的开源项目。历史推荐的开源项目已经收录到 GitHub 项目,欢迎 Star:
地址:https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo

* * *
推荐阅读
_1._ [GitHub 上有什么好玩的项目?](http://mp.weixin.qq.com/s?__biz=MzUxNjg4NDEzNA==&mid=2247498662&idx=1&sn=0087c4f3b79ba3420e917e9b42d45eda&chksm=f9a2286fced5a1794eb9a73d0be7c2e16eaceabf3a0420647c40cb4202bd116d9a15dd57c008&scene=21#wechat_redirect)
_2._ [推荐 5 个本周很火的 GitHub 项目](http://mp.weixin.qq.com/s?__biz=MzUxNjg4NDEzNA==&mid=2247515984&idx=1&sn=25df81d1db8d41bbc6e25faa105d63ee&chksm=f9a26c99ced5e58fc0cf66d6a9f91d3a88da2baebbb3cb5cd4cd25a5fd79902e929ee7aa9455&scene=21#wechat_redirect)
_3._ [推荐 5 个近期火火火的 GitHub 项目](http://mp.weixin.qq.com/s?__biz=MzUxNjg4NDEzNA==&mid=2247515963&idx=1&sn=830b3604e4328273564e46f238b6543f&chksm=f9a26cf2ced5e5e4e630c23df70206103c18dda2c3813b5c190b0a3914ba8e947bfda1847275&scene=21#wechat_redirect)
_4._ [推荐 5 个令人惊艳的 GitHub 项目](http://mp.weixin.qq.com/s?__biz=MzUxNjg4NDEzNA==&mid=2247515918&idx=1&sn=42c6a11d315dbe7bd95fda37a6ffa8fc&chksm=f9a26cc7ced5e5d11ca1a79dfe785e4e88e6dc9bff5e4f8fcc00be6001861d151443f0eb1bdc&scene=21#wechat_redirect)

## AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享
四、AI大模型商业化落地方案
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2025最新版优快云大礼包:《AGI大模型学习资源包》免费分享
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。