一、引言
之前作为技术经理参加了一个项目,是个过千万的大项目中有一小块要做智能客服机器人,需要实现移动端语音交互,但不接受SAAS方式,我们前期尝试采购国内某大厂的语音平台,虽然对方给予了极大优惠,但费用还是有点高,成本Hold不住。因此就转向寻求开源语音组件。
首先,介绍一下语音的相关功能,其实主要有两块功能,一个是语音合成,也就是文本转语音(Text to Speech,即TTS),二是自动语音识别(Automatic Speech Recognition,即ARS),在大模型出来之前,像讯飞、百度这些公司已经有比较成熟的产品,就像翻译类的产品一样,但大模型出来之后,特别是开源大模型出来之后,免费效果又好,他们的传统语音产品想要再卖个好价钱,就太难了,纷纷投入开发了语音大模型,今天我们要讨论的不是他们的商用语音大模型,而是开源的语音大模型。
近两三年,开源语音大模型在文本到语音(TTS)和自动语音识别(ASR)领域的技术突破,大量侵占了传统语音产品的市场,特别是最近我国的MiniMax推出的TTS大模型Speech-02-HD模型效果震惊世人,取得国际权威语音评测榜单Artificial Analysis和Hugging Face维护的TTS-Arena2榜单两个语音大模型榜单的Top1,借这个机会我觉得有必要重新梳理一下语音大模型的内容。因为我隐隐感觉到语音大模型的市场要变天了,根据IDC数据,2025年中国人工智能语音市场规模预计达到387亿元,同比增长20.5%,其中开源技术的渗透率预计超过40%。在技术层面,开源模型的语音识别准确率已超过97%,TTS自然度提升至88%,并预计未来将进一步提高,进一步推动智能客服、智能家居、智能汽车、医疗、教育等多个行业的语音应用变革。
然而,面对市场上众多的开源语音大模型产品,如何选择最适合自身需求的TTS和ASR解决方案成为企业和开发者的关键挑战。本文通过分析当前主流TTS和ARS开源项目进行对比总结,以供大家参考。

最低0.47元/天 解锁文章
3360

被折叠的 条评论
为什么被折叠?



