X-Codec-2.0：开启高质量多语言语音合成的全新篇章-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00881/article/details/147067283

X-Codec-2.0：开启高质量多语言语音合成的全新篇章

X-Codec-2.0 Codec for paper: LLaSA: Scaling Train-time and Inference-time Compute for LLaMA-based Speech Synthesis 项目地址: https://gitcode.com/gh_mirrors/xc/X-Codec-2.0

项目介绍

X-Codec-2.0 是一个开源的多语言语音合成项目，旨在通过创新的编码技术和深度学习模型，实现高质量的语音重建和转换。项目基于 LLaMA 模型，并结合了最新的语义编码技术，为开发者提供了一种强大的工具，以处理多种语言环境的语音合成需求。

项目技术分析

X-Codec-2.0 的核心技术包括单向量量化、多语言语音语义支持以及高质量的语音重建。

单向量量化

单向量量化是 X-Codec-2.0 的核心亮点之一。它采用 65536 的大码本大小，通过有限标量量化实现高达 99% 的码本利用率。这一特性与文本编码器 LLaMA3 128256 相当，并能以每秒 50x1 的速度处理令牌，大大提升了语音合成的效率。

多语言语音语义支持

项目利用 Wav2Vec2-BERT，这是一种在超过 450 万小时未标记音频数据上预训练的语义编码器，覆盖了超过 143 种语言。此外，X-Codec-2.0 在 150k 小时的多语言语音数据上进行了训练，包括 Emilia 和 MLS 等语言组合，从而确保了对多种语言环境的全面支持。

高质量语音重建

X-Codec-2.0 采用了一种基于 Transformer 的解码器结合 Vocos 解码器的高质量语音重建方法。它使用了 BigCodec 编码器和大规格的 Spec 离散判别器，以适配变压器解码器。在 librispeech-test-clean 数据集上的重建性能达到了 WER 2.47、UTMOS 4.13、STOI 0.92、PESQ-NB 3.05 和 PESQ-WB 2.44 的优异指标。