- gpt5 深度思考:
TTS 开源选型 (202511)
现在“适合数字人”的 TTS,已经不再是单看 MOS/拟真度,而是看 三件事同时成立:
- 流式首包低(<250ms)
- 可控与表达强(情绪/节奏/停连/风格)
- 说话人一致性/克隆能力稳定(一个角色长期不飘)
我按“数字人交互 / 数字人影视(MV、配音)”两类场景给你一个比较实用的模型+工程选型。
一、交互型数字人(实时对话、语音助手)首选
1) CosyVoice2(你正在测的这条线)
定位:实时交互的工业级流式 TTS 当前最稳的开源选择。
- 设计就是为 streaming 优化,官方/社区给到 首包 ~150ms 级别,且 streaming 与 offline 质量差距很小。(arXiv
订阅专栏 解锁全文
818

被折叠的 条评论
为什么被折叠?



