导语
腾讯AI Lab正式开源基于LeVo架构的30亿参数音乐生成大模型SongGeneration,通过混合音轨与双轨并行建模技术,实现人声与伴奏的和谐统一与高质量分离处理,支持中英文多风格创作,性能媲美商业闭源系统。
行业现状:AI音乐生成的技术突围
2025年AI音乐创作领域呈现爆发式增长,短视频配乐、游戏音效设计、虚拟偶像演出等场景催生千亿级市场需求。然而现有开源模型普遍面临三大痛点:音质损耗严重(44.1kHz以下采样率)、音乐性不足(旋律断裂、风格混乱)、生成效率低下(单首歌曲耗时超5分钟)。第三方数据显示,商业音乐生成工具市场规模已达127亿元,但90%头部工具采用闭源策略,制约行业创新发展。
腾讯此次开源的SongGeneration模型,依托百万歌曲数据集训练与LeVo架构创新,在第三方评测中展现显著优势:生成歌曲的整体音乐表现、旋律流畅度、伴奏协调性等核心指标全面领先主流开源模型,部分维度超越商业闭源系统,为行业提供首个"效果媲美商业产品、完全开放可定制"的技术方案。
技术亮点:四大创新突破行业瓶颈
1. 混合双轨并行建模技术
针对传统模型人声伴奏分离度不足的问题,SongGeneration创新设计"混合优先,双轨其次"的多类别token并行预测策略。系统首先通过语言模型对混合token进行整体规划,确保音乐结构和谐统一;再通过扩展解码器独立建模双轨token,捕捉人声与伴奏的细粒度变化。这种架构使生成歌曲的声部分离度提升40%,同时避免传统交错预测模式导致的序列长度倍增问题,生成效率提高3倍。
2. 超低码率高质量编解码系统
模型集成业内首个双通道48kHz音乐编解码器,实现0.35kbps比特率下的高品质音频重建。该编解码器参数规模约10亿,将音频压缩为25Hz离散表征的同时,保留98%的声学特征信息。对比测试显示,在相同码率条件下,其音质评分(MOS)达到4.2,显著高于行业平均水平(3.5),为移动端实时生成提供技术基础。
3. 多维度人类偏好对齐训练
作为业内首个实现多维度偏好对齐的音乐生成模型,SongGeneration通过半自动数据构建方法,生成音乐性、歌词对齐与提示一致性三大维度的偏好数据对。采用创新的插值优化DPO算法,在有限标注数据下实现音乐审美与指令遵循能力的双重提升。第三方评测显示,其歌词对齐准确率达到92.3%,较基线模型提升28%,解决AI生成歌曲"词不对音"的顽疾。
4. 三阶段模块化训练范式
模型采用"预训练-扩展训练-偏好对齐"三阶段训练架构:预训练阶段在大规模音乐数据上建立模态对齐基础;模块化扩展训练实现双轨token并行预测能力;多偏好对齐训练优化审美表现。这种训练范式使模型在保持10G基础显存需求的同时,支持最长4分30秒歌曲生成,平衡性能与资源消耗。
性能对比:开源模型的逆袭
如上图所示,雷达图清晰展示了SongGeneration与Suno v4.5、海绵音乐、Mureka O1三款商业模型在旋律、伴奏、结构、音质、歌词精准度、整体表现六大核心维度的性能对比。其中SongGeneration在歌词准确度(92.3%)和结构完整性(89.7%)维度超越所有商业竞品,音质表现(91.2%)与Suno v4.5持平,证明开源模型已具备挑战商业系统的技术实力。
应用场景:从创作工具到产业赋能
1. 专业音乐创作辅助
模型支持通过文本描述(如"古风 抒情 钢琴前奏")生成完整歌曲结构,同时提供多轨分离输出,方便制作人进行精细化编辑。独立音乐人测试显示,使用SongGeneration可将demo创作周期从平均3天缩短至2小时,且原创性评分达到85分(百分制),显著高于传统采样拼接方法(62分)。
2. 教育领域创新应用
依托腾讯云AIGC教育解决方案,SongGeneration已在多所艺术院校开展教学试点。通过"AI作曲-人工改编"的协作模式,学生创作效率提升3倍,音乐理论应用能力测试成绩平均提高27%。该模式既保留创作教育核心价值,又大幅降低技术门槛,实现"创意优先"的教学转型。
3. 商业内容生产流水线
针对广告、短视频等场景的配乐需求,模型支持批量生成多风格候选音乐,配合腾讯云内容审核系统实现版权合规检测。某头部MCN机构实测显示,采用该方案后视频配乐获取成本降低60%,版权纠纷率从15%降至0.3%,内容生产周期缩短40%。
版权保护:构建可持续创作生态
在AI生成内容版权争议日益凸显的背景下,SongGeneration建立完整的版权保护机制。模型训练数据严格遵循相关法律法规,所有训练样本均来自合法授权数据源,并提供详细的数据来源说明文档。生成作品默认嵌入可追溯的元数据,记录创作参数与人工编辑痕迹,满足"重要人工投入"的版权认定标准。
上图展示了AI音乐创作的版权保护框架,明确"人类创意输入+AI辅助生成+人工编辑优化"的版权归属路径。腾讯AI Lab同时开源版权声明模板与创作流程记录工具,帮助用户满足相关版权注册要求,为AI生成音乐的版权保护提供技术与流程支持。
行业影响与未来趋势
SongGeneration的开源发布将加速AI音乐创作的普及进程。一方面,独立开发者可基于开源代码构建垂直领域解决方案,降低创新门槛;另一方面,企业用户能够通过微调定制专属模型,避免商业闭源工具的"黑箱依赖"风险。预计该模型将在内容创作平台、游戏厂商、在线教育等领域催生超过50种创新应用场景。
技术发展层面,模型路线图显示,2026年将推出支持英、日、西等多语种的v1.5版本,新增情感迁移、实时协作等功能。腾讯AI Lab同时启动"音乐AI生态计划",提供算力支持与技术培训,扶持100家中小企业基于SongGeneration开发创新应用,共同推动行业标准化与规范建设。
总结:开源生态重塑音乐创作未来
腾讯SongGeneration的开源标志着AI音乐生成技术从"闭源垄断"向"开放创新"的关键转折。其技术突破不仅解决音质损耗、音乐性不足等行业痛点,更通过完全开放的模型权重与模块化架构,为产业提供可定制、可扩展的技术底座。在版权保护机制与多场景适配能力的双重支撑下,该模型有望成为连接技术创新与商业价值的核心枢纽,推动AI音乐创作进入"高质量、低门槛、可持续"的新发展阶段。
开发者可通过项目地址https://gitcode.com/tencent_hunyuan/SongGeneration获取完整代码与模型权重,参与开源社区建设。随着技术的持续迭代与生态的不断完善,AI音乐创作正从辅助工具加速迈向"人机共创"的全新范式,为音乐产业注入持久创新动能。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考





