腾讯开源SongGeneration:3B参数大模型推动音乐创作进入新发展阶段

腾讯开源SongGeneration:3B参数大模型推动音乐创作进入新发展阶段

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案 【免费下载链接】SongGeneration 项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

导语:6月16日,腾讯AI Lab正式开源音乐生成大模型SongGeneration,以30亿参数实现专业级歌曲生成,解决音质、音乐性与速度三大行业痛点,推动AI音乐创作进入"全民共创"新阶段。

行业现状:AI音乐生成的三重困境

2025年全球音乐大模型市场规模预计达187亿美元,中国占比32%。但当前主流工具普遍面临三大瓶颈:音质浑浊(48kHz双通道音频生成失败率超40%)、人声伴奏割裂(和谐度评分低于65分)、生成效率低下(单首创作平均耗时超8分钟)。IIM信息研究院报告显示,60%的创作者因这些问题放弃AI辅助工具。

短视频配乐、游戏音效、虚拟人演出等场景的爆发式需求,与现有技术的局限性形成尖锐矛盾。腾讯AI Lab此次开源的SongGeneration,正是瞄准这一市场缺口,基于LeVo架构打造的新一代解决方案。

核心亮点:四项技术突破重构创作逻辑

1. 双轨并行建模技术

SongGeneration创新性采用"混合优先,双轨其次"的多类别token并行预测策略。混合token确保人声与伴奏的和谐统一,双轨token则独立编码细节,使48kHz双通道音频的音质评分达到92.3分,较开源模型平均提升35%。这种架构既解决了传统双轨预测的序列长度倍增问题,又避免了单轨建模的细节丢失,实现"和谐度"与"清晰度"的双重突破。

2. 多维度人类偏好对齐

针对音乐性、歌词准确度与提示一致性三大核心需求,模型通过半自动数据构建方法生成大规模偏好数据对:

  • 音乐性:训练奖励模型区分旋律流畅度、情感表达等胜负对
  • 歌词对齐:通过ASR模型计算音素错误数构建精准度数据
  • 提示一致性:利用MuQ-MuLan计算文本-音频相似度

在主观评测中,其歌词准确度超越Suno v4.5,音素错误率(PER)低至1.9%,实现"唱你所想"的精准表达。

3. 超低比特率编解码系统

自研的Music Codec以0.35kbps比特率压缩48kHz双通道音频,码率仅为行业平均水平的1/5。这一突破使生成速度提升至30秒/首,较同类模型快2-3倍,同时保持96%的音质还原度,完美平衡效率与质量。

4. 三阶段训练范式

模型采用"预训练-模块化扩展-多偏好对齐"的渐进式训练:

  1. 在百万歌曲数据集预训练语言模型,奠定音乐结构基础
  2. 扩展训练自回归解码器,优化双轨细节
  3. 通过插值DPO方法对齐人类偏好,实现可控性与艺术性的平衡

这一范式使3B参数量模型达到商业大模型性能,部署成本降低60%。

应用场景:从专业创作到全民表达

SongGeneration已支持文本控制、风格跟随、多轨生成等核心功能:

  • C端创作:输入"古风 忧伤"等关键词即可生成完整歌曲,3秒音频片段实现零样本音色克隆
  • B端赋能:为短视频平台提供API接口,生成速度达100首/秒,适配流行、摇滚等20种曲风
  • 行业革新:虚拟人演出实现实时歌声合成,游戏厂商可快速生成动态背景音乐

腾讯AI Lab表示,模型已在Hugging Face开放体验,后续将推出支持中英文双语的完整版,进一步降低创作门槛。

行业影响:开源生态重塑竞争格局

SongGeneration的开源策略将加速AI音乐技术发展。其3B轻量化模型可在普通GPU运行,使开发者无需高端硬件即可参与二次创新。相较于闭源商业模型动辄10美元/月的订阅费,开源方案将单首创作成本降至0.1元,预计带动中小创作者数量增长200%。

在技术层面,该模型证明了"小参数高效率"的可行性,为行业树立新标杆。其多偏好对齐方法和三阶段训练范式,可能成为音乐大模型的通用解决方案,推动整个领域从"能生成"向"生成得好"跨越。

未来展望:走向智能共创的音乐新纪元

随着端侧AI算力的提升,SongGeneration有望集成到手机等移动设备,实现"实时即兴创作"。腾讯AI Lab透露,下一代模型将重点突破情感迁移和跨模态创作,支持"根据视频生成配乐"等复杂任务。

这场由中国团队引领的技术革新,不仅打破了AI音乐创作的技术垄断,更重新定义了人机协作的边界。当创作工具的门槛降至"零",每个人都可能成为音乐的创造者,这或许正是SongGeneration留给行业最珍贵的礼物——不是取代音乐人,而是让音乐回归"人人皆可表达"的本质。

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案 【免费下载链接】SongGeneration 项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值