腾讯开源SongGeneration：LeVo架构突破AI音乐生成技术瓶颈-优快云博客

腾讯开源SongGeneration：LeVo架构突破AI音乐生成技术瓶颈

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

导语

腾讯正式开源SongGeneration音乐生成大模型，基于创新LeVo架构实现人声与伴奏的和谐统一，性能媲美国际顶尖商业模型，推动AI音乐创作向"人人皆可创作"愿景迈进。

行业现状：AI音乐市场迎来爆发增长

2025年全球AI音乐创作市场呈现爆发式增长态势。据未来智库数据显示，该市场规模已从2024年的58亿元激增至2025年的103亿元，年复合增长率高达78%。量子位智库报告指出，当前AI生成音乐主要覆盖中低端长尾市场，平台模式成为最适合的商业化路径，付费群体以C端用户为主。IMS Business Report 2025统计显示，2024年全球已有6000万用户使用AI软件创作音乐，其中10%的消费者直接通过生成式AI创作音乐或歌词。

与此同时，行业仍面临三大核心痛点：音质与音乐性难以兼顾、生成速度与可控性不足、多语言支持能力有限。腾讯SongGeneration的开源正是针对这些行业共性难题提出的系统性解决方案。

模型亮点：LeVo架构引领技术突破

SongGeneration基于腾讯自研的LeVo架构，采用"混合优先，双轨其次"的创新设计理念，在技术层面实现三大突破：

1. 双轨并行建模技术
模型创新性地设计了混合轨道与双轨并行建模系统。混合轨道模式确保人声与伴奏的和谐统一，双轨模式则实现人声与背景音乐的独立建模，使两者细节表现更加清晰。这种设计使48kHz高质量音频编解码仅需0.35kbps的超低比特率，较传统方案降低60%计算成本。

2. 多类别token并行预测
业内首创"混合优先，双轨其次"预测策略：先通过语言模型预测混合token指导整体音乐结构，再通过扩展解码器建模双轨token捕捉细节变化。两个模块通过隐藏向量紧密连接，在不增加序列长度的情况下实现并行预测，有效避免token间干扰。

3. 多维度人类偏好对齐
针对音乐性、歌词对齐和提示一致性三大偏好维度，设计半自动数据构建方法生成大规模偏好数据对。通过基于插值的直接偏好优化技术，在歌词准确度等关键指标上超越Suno等主流商业模型。

如上图所示，雷达图对比了SongGeneration与Suno v4.5、海绵音乐、Mureka O1在旋律、伴奏、结构、音质、歌词精准度等维度的表现。SongGeneration在歌词准确度上以89分位列第一，整体表现与Suno v4.5难分高下，展现出强劲的综合竞争力。

在实际应用中，SongGeneration支持文本控制、风格跟随、多轨生成和音色跟随四大核心功能。用户仅需输入"开心流行"等关键词即可生成完整作品，也可上传10秒参考音频生成风格一致的新曲，覆盖流行、摇滚、中国风等多流派创作需求。

该雷达图展示了SongGeneration与四款开源模型的对比结果，在旋律、伴奏、结构、音质和歌词精准度五个维度均排名第一，尤其在音质和结构维度领先第二名15%以上，充分验证了其在开源领域的技术优势。

行业影响：开源生态重塑创作格局

SongGeneration的开源将从三个维度重塑AI音乐创作生态：

技术普惠效应
模型总参数量仅3B左右，可在10G/16G显存的普通GPU上运行，大幅降低AI音乐创作的技术门槛。开源社区可通过https://gitcode.com/tencent_hunyuan/SongGeneration获取完整代码与模型权重，快速部署个性化音乐生成应用。

商业场景拓展
当前AI音乐主要应用于短视频配乐、游戏音效、虚拟人演出等场景。腾讯云开发者社区数据显示，集成SongGeneration的内容创作平台用户留存率提升27%，内容生产效率提高3倍。模型支持的多轨分离功能，使音乐制作人可直接对生成的人声和伴奏进行二次创作，拓展了专业应用场景。

行业竞争格局
在国际巨头主导的AI音乐领域，SongGeneration的开源标志着中国技术力量的崛起。其多语言支持能力（中英文已实现，未来将支持西班牙文、日文等）特别适合全球化内容创作需求，预计将在跨境社交媒体、多语言广告等领域获得快速应用。

未来展望：从工具到生态的进化

随着端侧AI算力的提升，SongGeneration计划推出体积压缩40%的移动端版本，适配2025年普及的AI手机，催生"实时即兴创作"新场景。腾讯AI Lab同时公布三大技术路线图：2025年Q4支持48kHz高保真音频处理，2026年实现实时交互创作，2027年推出多感官协同生成系统。

行业分析师指出，AI音乐创作正从"辅助工具"向"智能共创"演进。SongGeneration的开源不仅提供技术方案，更构建了开放、灵活、可持续的音乐AI生态系统。对于内容创作者，这意味着更低的创作门槛和更高的生产效率；对于音乐产业，则预示着版权授权、内容分发等商业模式的创新可能。

在AI与人类创造力深度融合的未来，SongGeneration的开源或许正是那把打开"人人皆可创作"之门的钥匙。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考