腾讯开源SongGeneration：3B参数大模型推动音乐创作进入新发展阶段-优快云博客

腾讯开源SongGeneration：3B参数大模型推动音乐创作进入新发展阶段

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

导语：6月16日，腾讯AI Lab正式开源音乐生成大模型SongGeneration，以30亿参数实现专业级歌曲生成，解决音质、音乐性与速度三大行业痛点，推动AI音乐创作进入"全民共创"新阶段。

行业现状：AI音乐生成的三重困境

2025年全球音乐大模型市场规模预计达187亿美元，中国占比32%。但当前主流工具普遍面临三大瓶颈：音质浑浊（48kHz双通道音频生成失败率超40%）、人声伴奏割裂（和谐度评分低于65分）、生成效率低下（单首创作平均耗时超8分钟）。IIM信息研究院报告显示，60%的创作者因这些问题放弃AI辅助工具。

短视频配乐、游戏音效、虚拟人演出等场景的爆发式需求，与现有技术的局限性形成尖锐矛盾。腾讯AI Lab此次开源的SongGeneration，正是瞄准这一市场缺口，基于LeVo架构打造的新一代解决方案。

核心亮点：四项技术突破重构创作逻辑

1. 双轨并行建模技术

SongGeneration创新性采用"混合优先，双轨其次"的多类别token并行预测策略。混合token确保人声与伴奏的和谐统一，双轨token则独立编码细节，使48kHz双通道音频的音质评分达到92.3分，较开源模型平均提升35%。这种架构既解决了传统双轨预测的序列长度倍增问题，又避免了单轨建模的细节丢失，实现"和谐度"与"清晰度"的双重突破。

2. 多维度人类偏好对齐

针对音乐性、歌词准确度与提示一致性三大核心需求，模型通过半自动数据构建方法生成大规模偏好数据对：

音乐性：训练奖励模型区分旋律流畅度、情感表达等胜负对
歌词对齐：通过ASR模型计算音素错误数构建精准度数据
提示一致性：利用MuQ-MuLan计算文本-音频相似度

在主观评测中，其歌词准确度超越Suno v4.5，音素错误率（PER）低至1.9%，实现"唱你所想"的精准表达。

3. 超低比特率编解码系统

自研的Music Codec以0.35kbps比特率压缩48kHz双通道音频，码率仅为行业平均水平的1/5。这一突破使生成速度提升至30秒/首，较同类模型快2-3倍，同时保持96%的音质还原度，完美平衡效率与质量。

4. 三阶段训练范式

模型采用"预训练-模块化扩展-多偏好对齐"的渐进式训练：

在百万歌曲数据集预训练语言模型，奠定音乐结构基础
扩展训练自回归解码器，优化双轨细节
通过插值DPO方法对齐人类偏好，实现可控性与艺术性的平衡

这一范式使3B参数量模型达到商业大模型性能，部署成本降低60%。

应用场景：从专业创作到全民表达

SongGeneration已支持文本控制、风格跟随、多轨生成等核心功能：

C端创作：输入"古风忧伤"等关键词即可生成完整歌曲，3秒音频片段实现零样本音色克隆
B端赋能：为短视频平台提供API接口，生成速度达100首/秒，适配流行、摇滚等20种曲风
行业革新：虚拟人演出实现实时歌声合成，游戏厂商可快速生成动态背景音乐

腾讯AI Lab表示，模型已在Hugging Face开放体验，后续将推出支持中英文双语的完整版，进一步降低创作门槛。

行业影响：开源生态重塑竞争格局

SongGeneration的开源策略将加速AI音乐技术发展。其3B轻量化模型可在普通GPU运行，使开发者无需高端硬件即可参与二次创新。相较于闭源商业模型动辄10美元/月的订阅费，开源方案将单首创作成本降至0.1元，预计带动中小创作者数量增长200%。

在技术层面，该模型证明了"小参数高效率"的可行性，为行业树立新标杆。其多偏好对齐方法和三阶段训练范式，可能成为音乐大模型的通用解决方案，推动整个领域从"能生成"向"生成得好"跨越。

未来展望：走向智能共创的音乐新纪元

随着端侧AI算力的提升，SongGeneration有望集成到手机等移动设备，实现"实时即兴创作"。腾讯AI Lab透露，下一代模型将重点突破情感迁移和跨模态创作，支持"根据视频生成配乐"等复杂任务。

这场由中国团队引领的技术革新，不仅打破了AI音乐创作的技术垄断，更重新定义了人机协作的边界。当创作工具的门槛降至"零"，每个人都可能成为音乐的创造者，这或许正是SongGeneration留给行业最珍贵的礼物——不是取代音乐人，而是让音乐回归"人人皆可表达"的本质。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考