腾讯SongGeneration大模型重磅升级,开源工具SongPrep解决音乐AIGC数据难题
近日,腾讯AI Lab宣布对旗下音乐生成大模型SongGeneration进行重大版本更新,此次迭代聚焦三大突破性进展:英文歌曲生成质量实现跨越式提升、首次支持4分钟以上完整音乐作品创作、同步开源自动化数据处理工具SongPrep。这一系列升级不仅显著降低了AI音乐创作的技术门槛,更标志着开源音乐生成领域正式迈入工业化生产阶段。
英文创作能力全面进化,跨语种音乐生成无障碍
新版SongGeneration在英文歌曲创作方面实现了质的飞跃。通过构建百万级高质量多语种音乐语料库,并创新应用多维度情感对齐技术,模型在英文歌词的韵律匹配、语义连贯度和情感表达精度上达到了新高度。
技术突破点体现在三个维度:首先是音素级精细对齐,通过预训练语音识别模型构建音素错误率评估体系,生成精准的发音偏好数据对,使英文歌词与旋律的匹配误差降低62%;其次是跨语言语义理解机制,基于多语言大模型分词器构建情感映射网络,确保英文歌词在保持发音准确的同时,精准传达原始情感意图;最后是风格迁移能力强化,通过引入风格特征解耦模块,模型能够自适应流行、摇滚、电子等12种主流音乐风格的语言表达特性。第三方测试数据显示,新版模型生成的英文歌曲在母语者盲测中认可度达到87%,已接近专业创作水准,为全球音乐创作者提供了真正可用的跨语言创作工具。
突破时长限制瓶颈,完整音乐作品创作成为可能
此次更新最具行业影响力的突破是成功打破歌曲时长限制,实现4分钟以上完整音乐作品的端到端生成。这一进展使开源AI音乐生成从碎片化内容创作阶段,正式迈入完整作品生产新纪元。
支撑这一突破的技术架构创新包括:首创LLM-DiT混合建模架构,将语言模型的长序列理解能力与扩散模型的细节生成能力有机融合,实现音乐结构的全局规划与局部细节的精准控制;开发超低比特率编解码系统,在保持48kHz采样率高清音质的同时,将数据传输量压缩75%;创新分层注意力机制,通过段落级-乐句级-音符级三级注意力网络,确保长歌曲在结构完整性、节奏连贯性和情感递进方面达到专业制作标准。特别值得关注的是内存优化方案,采用动态内存卸载策略和计算图优化技术,使单张消费级GPU即可完成4分钟歌曲生成,硬件门槛降低80%。这意味着独立音乐人现在能够借助普通设备创作完整专辑作品,而非仅仅是短视频配乐片段。
开源数据工具SongPrep,构建音乐AI生态新基建
秉承腾讯"开放共建"的开源理念,本次升级同步发布了音乐数据处理全流程解决方案SongPrep,并完全开放源代码。这一工具直击音乐AIGC领域高质量标注数据稀缺的行业痛点,为构建开放共享的音乐AI生态体系提供了关键基础设施。
SongPrep的技术创新性体现在三个方面:打造端到端全链路处理引擎,将传统需要多工具串联的音频分离、歌词转录、结构分析等流程整合为一体化处理管道,处理效率提升300%;开发智能段落划分算法,通过融合频谱特征和节拍检测技术,实现前奏、主歌、副歌、间奏、尾奏等音乐结构的自动识别,准确率达91%;构建多语言歌词精准转录系统,支持中英双语混排歌词的实时转录与时间戳标注,字符错误率控制在3%以内。该工具已通过Apache 2.0协议开源,开发者可直接基于此构建高质量音乐数据集,大幅降低音乐AI模型训练的数据准备成本。
开源生态持续完善,共建音乐AI创新未来
腾讯AI Lab表示,SongGeneration升级版本及SongPrep工具已完全开源,相关代码、模型权重和使用文档已同步发布。开发者可通过以下渠道获取:
- SongGeneration项目仓库:https://gitcode.com/tencent_hunyuan/SongPrep-7B
- SongPrep数据工具仓库:https://gitcode.com/tencent_hunyuan/SongPrep-7B
- 在线演示平台:https://huggingface.co/spaces/tencent/SongGeneration
据项目负责人介绍,团队将持续迭代优化模型性能,计划在未来三个月内推出支持多声部生成、音乐风格迁移和实时协作创作等功能。同时将联合音乐院校和独立音乐人发起"开源音乐共创计划",构建高质量音乐数据集和创作社区。
此次升级不仅展现了腾讯在音乐AI领域的技术实力,更通过开源策略推动整个行业的技术进步。随着SongGeneration模型性能的持续提升和生态体系的不断完善,我们有理由相信,AI音乐创作将从专业领域走向大众创作,催生全新的音乐生产方式和商业模式,为音乐产业发展注入新的活力。未来,普通人通过简单文字描述即可创作专业级完整音乐作品的时代已不再遥远。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



