腾讯开源SongGeneration:3B参数大模型推动音乐创作进入新发展阶段
导语:6月16日,腾讯AI Lab正式开源音乐生成大模型SongGeneration,以30亿参数实现专业级歌曲生成,解决音质、音乐性与速度三大行业痛点,推动AI音乐创作进入"全民共创"新阶段。
行业现状:AI音乐生成的三重困境
2025年全球音乐大模型市场规模预计达187亿美元,中国占比32%。但当前主流工具普遍面临三大瓶颈:音质浑浊(48kHz双通道音频生成失败率超40%)、人声伴奏割裂(和谐度评分低于65分)、生成效率低下(单首创作平均耗时超8分钟)。IIM信息研究院报告显示,60%的创作者因这些问题放弃AI辅助工具。
短视频配乐、游戏音效、虚拟人演出等场景的爆发式需求,与现有技术的局限性形成尖锐矛盾。腾讯AI Lab此次开源的SongGeneration,正是瞄准这一市场缺口,基于LeVo架构打造的新一代解决方案。
核心亮点:四项技术突破重构创作逻辑
1. 双轨并行建模技术
SongGeneration创新性采用"混合优先,双轨其次"的多类别token并行预测策略。混合token确保人声与伴奏的和谐统一,双轨token则独立编码细节,使48kHz双通道音频的音质评分达到92.3分,较开源模型平均提升35%。这种架构既解决了传统双轨预测的序列长度倍增问题,又避免了单轨建模的细节丢失,实现"和谐度"与"清晰度"的双重突破。
2. 多维度人类偏好对齐
针对音乐性、歌词准确度与提示一致性三大核心需求,模型通过半自动数据构建方法生成大规模偏好数据对:
- 音乐性:训练奖励模型区分旋律流畅度、情感表达等胜负对
- 歌词对齐:通过ASR模型计算音素错误数构建精准度数据
- 提示一致性:利用MuQ-MuLan计算文本-音频相似度
在主观评测中,其歌词准确度超越Suno v4.5,音素错误率(PER)低至1.9%,实现"唱你所想"的精准表达。
3. 超低比特率编解码系统
自研的Music Codec以0.35kbps比特率压缩48kHz双通道音频,码率仅为行业平均水平的1/5。这一突破使生成速度提升至30秒/首,较同类模型快2-3倍,同时保持96%的音质还原度,完美平衡效率与质量。
4. 三阶段训练范式
模型采用"预训练-模块化扩展-多偏好对齐"的渐进式训练:
- 在百万歌曲数据集预训练语言模型,奠定音乐结构基础
- 扩展训练自回归解码器,优化双轨细节
- 通过插值DPO方法对齐人类偏好,实现可控性与艺术性的平衡
这一范式使3B参数量模型达到商业大模型性能,部署成本降低60%。
应用场景:从专业创作到全民表达
SongGeneration已支持文本控制、风格跟随、多轨生成等核心功能:
- C端创作:输入"古风 忧伤"等关键词即可生成完整歌曲,3秒音频片段实现零样本音色克隆
- B端赋能:为短视频平台提供API接口,生成速度达100首/秒,适配流行、摇滚等20种曲风
- 行业革新:虚拟人演出实现实时歌声合成,游戏厂商可快速生成动态背景音乐
腾讯AI Lab表示,模型已在Hugging Face开放体验,后续将推出支持中英文双语的完整版,进一步降低创作门槛。
行业影响:开源生态重塑竞争格局
SongGeneration的开源策略将加速AI音乐技术发展。其3B轻量化模型可在普通GPU运行,使开发者无需高端硬件即可参与二次创新。相较于闭源商业模型动辄10美元/月的订阅费,开源方案将单首创作成本降至0.1元,预计带动中小创作者数量增长200%。
在技术层面,该模型证明了"小参数高效率"的可行性,为行业树立新标杆。其多偏好对齐方法和三阶段训练范式,可能成为音乐大模型的通用解决方案,推动整个领域从"能生成"向"生成得好"跨越。
未来展望:走向智能共创的音乐新纪元
随着端侧AI算力的提升,SongGeneration有望集成到手机等移动设备,实现"实时即兴创作"。腾讯AI Lab透露,下一代模型将重点突破情感迁移和跨模态创作,支持"根据视频生成配乐"等复杂任务。
这场由中国团队引领的技术革新,不仅打破了AI音乐创作的技术垄断,更重新定义了人机协作的边界。当创作工具的门槛降至"零",每个人都可能成为音乐的创造者,这或许正是SongGeneration留给行业最珍贵的礼物——不是取代音乐人,而是让音乐回归"人人皆可表达"的本质。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



