腾讯开源SongGeneration:LeVo架构突破AI音乐生成技术瓶颈

腾讯开源SongGeneration:LeVo架构突破AI音乐生成技术瓶颈

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案 【免费下载链接】SongGeneration 项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

导语

腾讯正式开源SongGeneration音乐生成大模型,基于创新LeVo架构实现人声与伴奏的和谐统一,性能媲美国际顶尖商业模型,推动AI音乐创作向"人人皆可创作"愿景迈进。

行业现状:AI音乐市场迎来爆发增长

2025年全球AI音乐创作市场呈现爆发式增长态势。据未来智库数据显示,该市场规模已从2024年的58亿元激增至2025年的103亿元,年复合增长率高达78%。量子位智库报告指出,当前AI生成音乐主要覆盖中低端长尾市场,平台模式成为最适合的商业化路径,付费群体以C端用户为主。IMS Business Report 2025统计显示,2024年全球已有6000万用户使用AI软件创作音乐,其中10%的消费者直接通过生成式AI创作音乐或歌词。

与此同时,行业仍面临三大核心痛点:音质与音乐性难以兼顾、生成速度与可控性不足、多语言支持能力有限。腾讯SongGeneration的开源正是针对这些行业共性难题提出的系统性解决方案。

模型亮点:LeVo架构引领技术突破

SongGeneration基于腾讯自研的LeVo架构,采用"混合优先,双轨其次"的创新设计理念,在技术层面实现三大突破:

1. 双轨并行建模技术
模型创新性地设计了混合轨道与双轨并行建模系统。混合轨道模式确保人声与伴奏的和谐统一,双轨模式则实现人声与背景音乐的独立建模,使两者细节表现更加清晰。这种设计使48kHz高质量音频编解码仅需0.35kbps的超低比特率,较传统方案降低60%计算成本。

2. 多类别token并行预测
业内首创"混合优先,双轨其次"预测策略:先通过语言模型预测混合token指导整体音乐结构,再通过扩展解码器建模双轨token捕捉细节变化。两个模块通过隐藏向量紧密连接,在不增加序列长度的情况下实现并行预测,有效避免token间干扰。

3. 多维度人类偏好对齐
针对音乐性、歌词对齐和提示一致性三大偏好维度,设计半自动数据构建方法生成大规模偏好数据对。通过基于插值的直接偏好优化技术,在歌词准确度等关键指标上超越Suno等主流商业模型。

"商业模型主观评测结果"

如上图所示,雷达图对比了SongGeneration与Suno v4.5、海绵音乐、Mureka O1在旋律、伴奏、结构、音质、歌词精准度等维度的表现。SongGeneration在歌词准确度上以89分位列第一,整体表现与Suno v4.5难分高下,展现出强劲的综合竞争力。

在实际应用中,SongGeneration支持文本控制、风格跟随、多轨生成和音色跟随四大核心功能。用户仅需输入"开心 流行"等关键词即可生成完整作品,也可上传10秒参考音频生成风格一致的新曲,覆盖流行、摇滚、中国风等多流派创作需求。

"开源模型主观评测结果"

该雷达图展示了SongGeneration与四款开源模型的对比结果,在旋律、伴奏、结构、音质和歌词精准度五个维度均排名第一,尤其在音质和结构维度领先第二名15%以上,充分验证了其在开源领域的技术优势。

行业影响:开源生态重塑创作格局

SongGeneration的开源将从三个维度重塑AI音乐创作生态:

技术普惠效应
模型总参数量仅3B左右,可在10G/16G显存的普通GPU上运行,大幅降低AI音乐创作的技术门槛。开源社区可通过https://gitcode.com/tencent_hunyuan/SongGeneration获取完整代码与模型权重,快速部署个性化音乐生成应用。

商业场景拓展
当前AI音乐主要应用于短视频配乐、游戏音效、虚拟人演出等场景。腾讯云开发者社区数据显示,集成SongGeneration的内容创作平台用户留存率提升27%,内容生产效率提高3倍。模型支持的多轨分离功能,使音乐制作人可直接对生成的人声和伴奏进行二次创作,拓展了专业应用场景。

行业竞争格局
在国际巨头主导的AI音乐领域,SongGeneration的开源标志着中国技术力量的崛起。其多语言支持能力(中英文已实现,未来将支持西班牙文、日文等)特别适合全球化内容创作需求,预计将在跨境社交媒体、多语言广告等领域获得快速应用。

未来展望:从工具到生态的进化

随着端侧AI算力的提升,SongGeneration计划推出体积压缩40%的移动端版本,适配2025年普及的AI手机,催生"实时即兴创作"新场景。腾讯AI Lab同时公布三大技术路线图:2025年Q4支持48kHz高保真音频处理,2026年实现实时交互创作,2027年推出多感官协同生成系统。

行业分析师指出,AI音乐创作正从"辅助工具"向"智能共创"演进。SongGeneration的开源不仅提供技术方案,更构建了开放、灵活、可持续的音乐AI生态系统。对于内容创作者,这意味着更低的创作门槛和更高的生产效率;对于音乐产业,则预示着版权授权、内容分发等商业模式的创新可能。

在AI与人类创造力深度融合的未来,SongGeneration的开源或许正是那把打开"人人皆可创作"之门的钥匙。

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案 【免费下载链接】SongGeneration 项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值