AR-VITS: 使用自回归变换器和VITS的文本转语音开源项目
AR-VITS是一个开源的文本转语音(TTS)项目,主要使用Python语言开发。该项目基于自回归变换器和VITS(Voice Information Transformer-based Speech Synthesis)技术,致力于实现高质量的语音合成。
项目基础介绍
AR-VITS项目旨在通过结合自回归变换器和VITS技术,提高小数据集上的语音合成质量。项目目前处于开发阶段,提供了一种新的方法来处理语音合成中的韵律和发音问题。该项目的目标是,在一个大的语言模型预训练的基础上,利用自回归变换器的力量,在小数据集上进行微调后,能够达到良好的语音韵律效果。
核心功能
- 文本转语音合成:项目提供从文本到语音的合成功能,通过自回归变换器和VITS技术,实现自然流畅的语音输出。
- 韵律控制:借助自回归变换器,项目能够对小数据集进行微调,从而改善合成语音的韵律。
- 数据预处理:项目包括一系列数据预处理工具,用于提取语义标记、生成文件列表等,以便更好地训练模型。
- 多语言支持:项目计划支持中文、日语和英语等多种语言,并收集相应的数据集进行训练。
最近更新的功能
- 改进了长句合成效果:通过将同一说话人的多条数据合并为一条音频,提高了平均数据时长,从而改善了长句合成的稳定性。
- 使用RoPE相对位置编码:更换为RoPE(Rotary Positional Encoding)相对位置编码,以改善长句合成效果的稳定性。
- 增加了sid支持:在项目中增加了说话人识别(sid)支持,以便更好地处理不同的说话人数据。
- 优化了前端处理:对日语和英语文本的前端处理进行了优化,提高了模型的适应性和准确性。
项目开发团队正在不断迭代改进,预计未来将提供更多功能和优化。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考