腾讯AI Lab开源音乐生成大模型SongGeneration:重塑AIGC音乐创作边界
2025年6月20日,腾讯AI Lab正式发布并开源音乐生成大模型SongGeneration,该模型聚焦AIGC音乐领域长期存在的音质损耗、音乐性不足与生成效率低下三大核心痛点。依托创新的LLM-DiT融合架构,SongGeneration在保持高效生成速度的同时,实现了音质表现的显著突破。测试数据显示,其生成歌曲的综合质量已达到甚至超越部分商业模型,并在旋律流畅度、伴奏协调性、音质清晰度及结构完整性等关键维度全面领先现有开源方案。
该模型集成文本控制、多轨合成与风格迁移等多元功能,既满足普通创作者的轻量化使用需求,又具备企业级应用的稳定性与扩展性,为音乐创作行业构建起面向未来的AI生产力基础设施。
此图通过六维雷达图直观呈现了SongGeneration与主流商业模型的性能对比。从整体表现到细分维度的领先优势,清晰展示了开源模型在技术竞争力上的突破性进展,帮助读者快速理解该模型在行业中的定位与价值。
该图聚焦开源模型阵营的横向对比,SongGeneration在所有评测维度均处于领先位置。这种全面优势印证了其技术方案的先进性,为开发者选择音乐生成工具提供了权威参考依据。
相较于传统基于规则引擎或小型神经网络的音乐创作工具,大模型驱动的音乐生成系统在旋律连贯性、风格迁移能力及音色表现力上展现出本质性跨越。当前AI音乐创作正从简单的"工具辅助"阶段向深度"智能共创"模式演进,已广泛渗透短视频配乐生产、游戏音效设计、虚拟偶像演出、商业广告制作及个人音乐创作等多元场景。
SongGeneration设定了技术与应用双轨并行的发展目标:在技术层面,追求业界领先的音质表现、音乐性还原度与生成效率,同步支持多语种歌词输入、一键式歌曲生成及跨风格迁移等复杂任务,全面覆盖中英文流行、嘻哈、古风、电子等多样化曲风需求;在应用层面,通过开源社区版本的持续迭代,赋能内容创作平台、虚拟人开发项目、游戏研发厂商及独立音乐人,构建开放、灵活、可持续发展的音乐AI生态系统。该模型的推出不仅标志着音乐生成技术的重要突破,更是对"人人皆可创作"这一行业愿景的实质性推进。
核心功能解析
SongGeneration已实现多项关键功能的开源部署,这些功能设计既注重操作流程的简洁性,又强调生成过程的可控性,确保用户在AI辅助创作中始终掌握创作主导权。
文本控制功能支持用户通过简单关键词组合(如"欢快 民谣"、"忧伤 钢琴曲")实现对音乐风格与情感基调的精准把控,系统可基于文本描述自动生成完整的高质量音乐作品。风格跟随功能允许用户上传10秒以上的参考音频片段,模型能据此生成风格一致的全长新曲,覆盖流行、摇滚、中国风乃至网络"神曲"等多种音乐流派,在保持风格一致性的同时确保音乐作品的艺术完整性。
多轨生成技术实现人声与伴奏轨道的智能分离,同步保证旋律走向、歌曲结构、节奏韵律与配器编排的高度协同。音色跟随功能则支持基于参考音频的个性化音色克隆,生成人声不仅音质自然清晰,更具备细腻的情感表达能力,达到专业级录音水准。
技术架构创新
SongGeneration的技术体系由数据处理管线与生成模型两大核心模块构成。数据处理环节整合音伴分离、结构解析、歌词识别等关键技术,从原始音频中精准提取歌词信息,并同步生成结构标签、曲风分类、音质评级等多维度元数据,为模型训练提供高质量数据支撑。
生成模型采用模块化设计,总参数量控制在30亿规模,在海量中英文歌曲语料上完成预训练。系统架构包含codec编解码器、LM语言模型、FM特征匹配器及VAE变分自编码器等核心组件,各模块独立训练优化,其中编解码器与语言模型构成系统的技术基石。Music Codec模块(10亿参数)负责音乐信号的高效编解码,可将48kHz双通道音频以超低比特率压缩为25Hz的离散特征序列,并实现高保真还原。Music LM模块(20亿参数)则根据用户指令(歌词文本、描述性文字或音频提示)生成完整音乐作品,双模块协同工作确保48kHz高采样率音乐的高效生成。
突破性技术创新
SongGeneration在四大技术领域实现了原创性突破,构建起领先的音乐生成技术体系。
在低比特率音乐编解码方面,针对音乐信号的复杂性、大数据量及语义声学双重编码需求等行业难题,团队研发出开源领域最低比特率的双通道48kHz音乐编解码器。该技术实现0.35kbps比特率与25Hz码率下的高保真音乐重建,大幅降低语言模型的建模压力。创新设计的混合轨道与双轨道编码模式,分别满足人声伴奏和谐统一与细节独立呈现的不同需求。
多类别token并行预测策略解决了传统双轨预测的人声伴奏不和谐问题。系统首先通过语言模型预测混合token,确立旋律走向、节奏框架等宏观结构;再通过扩展自回归解码器建模双轨token,捕捉人声与伴奏的微观细节变化。双模块通过隐藏向量实现无缝衔接,在不增加序列长度的前提下实现并行预测,有效避免不同轨道间的信号干扰。
多维度人类偏好对齐技术解决了音乐生成领域数据质量不均与标注不可靠的行业痛点。团队创新性构建低成本半自动数据生成方案,针对音乐性、歌词对齐与提示一致性三大核心偏好,分别通过奖励模型评分、ASR音素错误分析、MuQ-MuLan相似度计算等技术生成大规模偏好数据对。基于插值优化的直接偏好优化算法(DPO)同步提升歌词准确率、提示匹配度与音乐艺术性,支持通过插值系数调节实现性能的平滑过渡。
全新三阶段训练范式针对音乐生成的复杂性与数据稀缺性特点量身打造:预训练阶段在大规模音乐语料上训练语言模型,初步建立多模态输入与音乐表征的映射关系;模块化扩展训练聚焦自回归解码器等扩展模块,在保留预训练知识的基础上提升音质与音乐性;多偏好对齐阶段则通过上述偏好数据对实现模型性能的综合优化,显著提升创作实用性。
权威评测验证
SongGeneration联合中国传媒大学音乐与录音艺术学院萧萍副教授团队构建了包含客观分析与主观感知的全方位评测体系,对模型性能进行科学验证。测试数据集涵盖三款商业模型(Suno v4.5、海绵音乐、Mureka O1)与四款开源方案(YuE、DiffRhythm、ACE-Step、SongGen),从音乐性、音质表现等多个维度展开对比分析。
客观评测体系包含制作质量(PQ)、制作复杂度(PC)、内容欣赏度(CE)与内容实用性(CU)四大指标,分别衡量音频技术质量、成分丰富度、艺术感染力与实际应用价值。主观评测则通过专业听众评分,评估旋律美感、伴奏协调性、结构完整性、音质清晰度、歌词准确度及整体喜好度等关键维度。
评测结果显示,SongGeneration在开源模型中全面领先,同时跻身商业模型第一梯队。客观指标中,模型在内容欣赏度、内容实用性与制作质量三项核心维度排名首位,制作复杂度指标亦处于领先水平,充分证明其在技术实现、艺术表达与应用价值上的综合优势。主观评测中,歌词准确度指标超越包括Suno在内的所有对比模型,展现出卓越的语音文本对齐能力;旋律、伴奏、音质与整体表现等维度与Suno v4.5难分伯仲,结构完整性指标则位列开源方案第一,显著增强音乐作品的叙事连贯性与情感表达力。
开放生态建设
SongGeneration模型已正式登陆Hugging Face平台,提供在线体验服务。全部模型权重与源代码已通过Gitcode平台开源(仓库地址:https://gitcode.com/tencent_hunyuan/SongGeneration),欢迎开发者下载调试、二次开发并提出改进建议。腾讯AI Lab同时开放多模态大模型、自适应智能体、音乐生成算法等方向的研发岗位,诚邀全球AI人才加入团队。
作为音乐AI领域的重要技术突破,SongGeneration不仅降低了音乐创作的技术门槛,更通过开源模式推动行业协同创新。未来随着模型能力的持续进化与应用场景的深度拓展,有望重塑音乐产业创作流程,催生更多元化的音乐作品与商业模式,最终实现"让每个人都能自由创作音乐"的技术愿景。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



