HAM-TTS大模型：基于token的零样本文字转语音分层声学建模

镰刀韭菜

已于 2025-01-21 00:47:30 修改

阅读量121

点赞数

CC 4.0 BY-SA版权

分类专栏： PaperReading 文章标签： HAM-TTS Zero-shot 文本转语音基于Token 自监督学习数据增强语音合成

于 2025-01-21 00:44:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ARPOSPF/article/details/145272609

PaperReading 专栏收录该内容

65 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

HAM-TTS大模型：基于token的零样本文字转语音分层声学建模

HAM-TTS
吉利自研语音大模型HAM-TTS的全称是：Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech，直译是基于token的零样本文字转语音分层声学建模，是星睿AI大模型体系下的重要一员。顾名思义，对于智能座舱体验来说，这项技术作用在最关键的交互环节： “发音” 。

论文地址：https://arxiv.org/abs/2403.05989

本文提出了一种基于深度学习的文本到语音（TTS）系统，称为HAM-TTS，旨在提高生成语音的质量，特别是在发音准确性、说话风格一致性以及音色连贯性方面。该模型采用了一种层次化的声学建模方法，并结合了数据增强策略和预训练的合成数据，使得训练数据规模扩大至650,000小时。通过引入一个包含补充声学信息的潜在变量序列到TTS模型中，并利用预测器进行转换，有效改善了语音的发音准确性和风格一致性。此外，还设计了一种策略来增强合成语音的音色连贯性。实验结果显示，与当前最先进的VALL-E模型相比，HAM-TTS在发音精确度

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

镰刀韭菜 看在我不断努力的份上，支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。