ChatTTS(Chat Text To Speech)是专为对话场景设计的文本生成语音(TTS)模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。ChatTTS支持中文和英文,还可以穿插笑声、说话间的停顿、以及语气词等,听起来非常真实自然(ChatTTS团队声称:突破开源天花板)。
ChatTTS不仅提升了文本转语音技术的实用性,也为对话式交互带来了更加真实和生动的体验,其具备的以下的亮点:
-
对话式优化:它通过优化语音合成过程,实现了更加自然和流畅的语音输出。这项技术特别适用于需要模拟真实对话场景的应用,如聊天机器人和虚拟助手。
-
多说话人支持:ChatTTS不仅能够提供单一声音的语音输出,还支持多种不同的声音选项,使得对话体验更加丰富和个性化。
-
韵律特征预测:该技术能够精准预测并控制语音中的韵律特征,包括但不限于笑声、停顿和插入词等细微的语音元素。
Github:GitHub - 2noise/ChatTTS: A generative speech model for daily dialogue.
HuggingFace:https://huggingface.co/2Noise/ChatTTS
【ChatTTS】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验【ChatTTS】带来的精彩体验吧!
项目入口:趋动云社区_开源项目_数据集_大模型
视频教程:
趋动云平台新增推理服务!一键体验【ChatTTS】最强语音_哔哩哔哩_bilibili
克隆项目
点击项目页面右上角 运行一下
当显示算力规格弹窗时,选择暂不运行
您可以基于项目中原有的开发环境配置直接提交推理,即点击 暂不运行 后提交推理服务;也可以点击 立即运行 ,进入开发环境中调试并保存后提交推理。
提交推理服务
选择暂不运行后,点击页面顶部中间悬浮栏处推理菜单,进入创建推理服务页面。
页面内自动带入了克隆项目的开发环境参数配置,如镜像、模型、算力规格等,您也可自行添加或更改。
启动命令:
python /gemini/code/chattts/webui.py --local_path=/gemini/pretrain
体验推理效果:
添加端口,获取外部访问链接,待推理服务成功启动、有副本处于运行中状态时,可通过访问外部地址直接体验推理。
WebUI操作:
➫温馨提示:完成项目后,记得及时停止运行推理服务,以免继续产生费用!
升级内容智汇全球,趋动未来
『社区项目』汇聚全球智慧,是促进技术交流的宝贵平台,期待每一位AI爱好者体验一键部署功能的强大魅力。
同时,我们也热切盼望每一位码友加入,分享您的精品作品,共筑这个充满活力与创新的技术乐园。