腾讯开源SongGeneration:LeVo架构重塑AI音乐创作生态

腾讯开源SongGeneration:LeVo架构重塑AI音乐创作生态

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案 【免费下载链接】SongGeneration 项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

导语

腾讯AI Lab于2025年6月正式开源音乐生成大模型SongGeneration,基于创新的LeVo架构实现了音质、音乐性与生成速度的三重突破,其30亿参数模型在多项评测中超越同类开源方案,甚至比肩商业巨头Suno v4.5,为音乐创作领域带来"人人皆可创作"的技术革命。

行业现状:AI音乐生成的三重困境

2025年,全球AI音乐市场规模已突破百亿大关,据IMS Business Report统计,仅2024年就有6000万用户使用AI工具创作音乐,其中10%的消费者直接通过生成式AI创作完整歌曲。然而主流模型仍面临三大核心瓶颈:音质"塑料感"明显、人声与伴奏割裂、生成速度与质量难以兼顾。尤其在中文场景下,古风歌词与传统乐器的融合度、戏腔转音的自然性等问题长期困扰创作者。

腾讯AI Lab此次推出的SongGeneration正是瞄准这些痛点,基于LLM-DiT融合架构,在30亿参数规模下实现了48kHz高保真音频生成,其创新的混合-双轨并行建模技术,从根本上解决了传统AI音乐"人声伴奏两张皮"的行业难题。

技术架构:LeVo架构的四大突破

1. 双轨并行建模技术

LeVo架构的核心创新在于提出"混合优先,双轨其次"的并行建模策略。系统首先通过混合Token统一建模人声与伴奏的整体和谐性,再通过双轨Token捕捉各自的细节特征。这种设计既避免了传统交错预测导致的序列长度倍增问题,又确保了音乐结构的完整性与音质的细腻度。

LeVo架构技术流程图

如上图所示,LeVo架构通过歌词、音频提示和文本描述三种输入方式,经BPE Tokenizer和Codec Encoder处理后,由LeLM模型并行生成混合Token与双轨Token,最终通过Codec Decoder直接输出48kHz音频波形。这种端到端架构比传统Mel频谱图方案生成速度提升40%。

2. 低比特率音乐编解码

针对音乐生成中数据量大、建模难度高的问题,SongGeneration开发了业界最低比特率的48kHz双通道编解码器。该 codec采用残差向量量化(RVQ)技术,将音频压缩至0.35kbps的超低比特率,同时保持高保真还原能力。这种设计使语言模型的预测压力降低60%,显著提升了长序列音乐的生成质量。

3. 多维度人类偏好对齐

通过创新的DPO(直接偏好优化)技术,SongGeneration实现了音乐性、歌词对齐与提示一致性的多维度偏好对齐。系统采用半自动数据构建方法,生成大规模偏好数据对:

  • 音乐性偏好:通过少量人工标注训练奖励模型
  • 歌词对齐偏好:利用ASR模型计算音素错误数构建样本
  • 提示一致性偏好:基于MuQ-MuLan计算文本-音频相似度

这种低成本方案有效解决了高质量音乐数据稀缺的行业痛点,使模型在歌词准确度上达到7.21分(满分10分),超越Suno v4.5的7.00分。

4. 三阶段训练范式

模型采用预训练→模块化扩展→多偏好对齐的三阶段训练流程:

  • 预训练阶段:在百万歌曲数据集上训练语言模型,奠定音乐基础能力
  • 模块化扩展:训练自回归解码器,增强双轨Token建模能力
  • 偏好对齐:通过DPO优化,平衡音乐性与指令遵循能力

核心功能与实测表现

四大核心功能

SongGeneration提供了兼顾专业性与易用性的完整功能集:

  • 文本控制:支持中英文歌词生成,通过"male, dark, pop, piano, bpm=110"等指令精确控制风格
  • 风格跟随:上传10秒音频即可迁移风格,特别优化了中文古风、戏曲等传统曲风
  • 多轨生成:独立输出人声/伴奏轨道,支持后期混音与风格融合
  • 零样本音色克隆:仅需3秒音频即可复制目标音色,无需额外训练

性能评测:开源模型中的佼佼者

在中国传媒大学音乐与录音艺术学院的专业评测中,SongGeneration展现出强劲性能:

AI音乐模型性能对比雷达图

这张雷达图对比了SongGeneration与三款商业模型在六个维度的表现。可以清晰看到,除结构完整性略逊Suno v4.5外,SongGeneration在旋律、伴奏、音质等核心指标上均处于领先位置,整体表现达到商业模型水平。

在开源模型对比中,SongGeneration更是全面领先,尤其在内容欣赏度(CE)和制作质量(PQ)维度分别达到9.05和8.92分,远超开源模型平均水平(8.20/8.10)。值得注意的是,其歌词准确度(LYC)达到7.21分,体现出对中文的深度优化。

行业影响与应用前景

创作门槛的革命性降低

SongGeneration的开源释放将显著降低AI音乐创作门槛。基础模型仅需10GB GPU内存即可运行,配合ComfyUI可视化界面,即使非专业用户也能快速上手。这种"创作便捷化"趋势预计将使音乐创作者数量在2025-2026年增长50%,尤其利好独立音乐人、短视频创作者和游戏开发者。

商业应用场景拓展

模型的双轨输出能力为B端应用提供了广阔空间:

  • 游戏开发:可分别调整人声/伴奏音量,适配不同游戏场景
  • 虚拟偶像:支持音色克隆与风格迁移,丰富虚拟人演出内容
  • 广告制作:快速生成多版本配乐,匹配不同市场定位

据腾讯AI Lab透露,已有多家游戏厂商和内容平台接入SongGeneration API,用于动态配乐和个性化音乐推荐。腾讯音乐启明星AI作歌此前已与浪琴、CK、费列罗等知名品牌合作发起互动营销活动,生成定制化音乐作品超200万首,创造百万级商业价值。

开源生态的推动作用

作为国内首个开源的高品质音乐生成模型,SongGeneration的发布填补了中文开源生态的空白。开发者可通过以下方式获取和使用:

git clone https://gitcode.com/tencent_hunyuan/SongGeneration
cd SongGeneration
pip install -r requirements.txt

模型提供了从基础版(10GB显存)到完整版(18GB显存)的多种选择,支持Windows、Linux系统和Docker部署,降低了二次开发门槛。

未来展望:AI音乐的下一个里程碑

SongGeneration的开源标志着AI音乐生成从"玩具"向"工具"的质变。随着v1.5版本对多语言支持(计划支持英、中、日、西等语言)和更长时长(4分30秒)生成能力的实现,模型有望在以下方向持续突破:

  • 实时交互创作:通过低延迟生成技术,实现创作者与AI的实时协作
  • 个性化风格迁移:精准捕捉小众音乐风格,如地方戏曲、民族音乐等
  • 多模态协同生成:结合视频、图像等输入,创造沉浸式音画体验

音乐创作的便捷化时代已然开启,无论是专业音乐人还是业余爱好者,都将从中获得前所未有的创作自由。而腾讯通过开源策略,不仅展示了技术实力,更推动了整个AI音乐生态的健康发展,为行业树立了开放创新的典范。

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案 【免费下载链接】SongGeneration 项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值