LeVo模型重磅发布:SongGeneration开启AI全曲创作新纪元,支持4分30秒人声伴奏同步生成
项目概述与核心功能
SongGeneration作为NeurIPS 2025收录论文《LeVo: High-Quality Song Generation with Multi-Preference Alignment》的官方代码库,首次实现了基于语言模型架构的专业级歌曲生成系统。该项目整合了LeLM多模态建模框架与音乐编解码技术,提供从歌词到完整歌曲的端到端创作能力,目前已开放模型权重、推理脚本及数据处理工具链,开发者可通过GitCode仓库(https://gitcode.com/tencent_hunyuan/SongGeneration)获取全部资源。
如上图所示,项目logo通过卡通企鹅演奏吉他的形象,直观传达了AI与音乐创作的融合理念。彩色波浪线与音乐符号的设计元素,象征着模型生成的丰富音频波形与多元音乐风格,为开发者提供了友好且富有科技感的视觉标识。
技术架构解析
SongGeneration创新性地采用双轨 token 并行建模架构:LeLM模块同时处理混合 token(人声与伴奏融合编码)和分离 token(独立编码 vocals 与 accompaniment 轨道),通过音乐编解码器将这些高级语义 token 重构为48kHz高保真音频。这种设计既保证了人声与伴奏的和谐统一,又实现了专业级的轨道分离输出,解决了传统AI作曲中"人声被伴奏淹没"的行业痛点。
技术流程图清晰展示了模型的三阶工作流程:首先对歌词结构、音频参考、风格描述进行多模态 token 化,接着通过 LeLM 进行跨模态融合建模,最终生成的双轨 token 经编解码后输出高质量音频。这种端到端架构避免了传统 pipelines 的信息损耗,为音乐生成质量带来质的飞跃。
版本迭代与功能演进
项目自2025年6月发布以来持续高频更新,核心功能演进路线清晰可见:7月实现10GB显存轻量化部署,支持纯音乐/纯人声分离生成;9月推出的智能数据处理 pipeline,在SSLD-200测试集上实现超越Gemini-2.5的歌词时间戳定位精度;10月密集发布base-new(中英双语支持)、base-full(4分30秒超长生成)及large(性能旗舰版)三个重要版本,其中10月16日上线的Demo系统已支持完整歌曲创作。
当前模型矩阵涵盖四大主力版本:基础版(2分30秒中文生成)、增强版(中英双语)、全时长版(4分30秒双语言)及旗舰版(RFT指标达1.51),显存需求从10GB到28GB不等,全面覆盖从个人开发者到企业级应用的多样化需求。即将推出的v1.5系列更将支持西班牙语、日语等多语言创作,并引入强化学习奖励模型提升音乐性与歌词对齐度。
快速上手指南
环境配置
开发者可通过两种方式部署环境:基础方式需Python 3.8.12+与CUDA 11.8+环境,执行pip install -r requirements.txt完成依赖安装,建议额外安装Flash Attention加速库;Docker用户可直接拉取预配置镜像juhayna/song-generation-levo:hf0613,实现一键部署。Windows用户还可通过ComfyUI插件或专用安装包简化部署流程。
模型下载
通过huggingface-cli工具可快速获取各版本模型:
# 基础版(中文,2分30秒)
huggingface-cli download lglg666/SongGeneration-base --local-dir ./songgeneration_base
# 全时长增强版(中英双语,4分30秒)
huggingface-cli download lglg666/SongGeneration-base-full --local-dir ./songgeneration_base_full
推理实战
使用JSON Lines格式准备输入文件,需包含idx(唯一标识)、gt_lyric(带结构标记的歌词)等核心字段,支持descriptions(风格描述)、prompt_audio_path(参考音频)等可选参数。执行以下命令启动生成:
# 基础生成命令
sh generate.sh ./songgeneration_base ./sample/lyrics.jsonl ./output
# 低显存模式(10GB显存设备)
sh generate.sh ./songgeneration_large ./sample/lyrics.jsonl ./output --low_mem
# 分离轨道生成(人声+伴奏单独输出)
sh generate.sh ./songgeneration_base_full ./sample/lyrics.jsonl ./output --separate
输入歌词需遵循特定格式规范,例如:[Verse] These faded memories of us. I can't erase the tears you cried before. ; [Chorus] Like a fool begs for supper...,支持[Verse]、[Chorus]等结构化标记及纯音乐段落([intro-short]、[inst-medium]等)。风格描述可指定性别、音色、 genre、情感等维度,如"female, dark, pop, sad, piano and drums"。
性能评估与行业定位
在中文歌曲生成评测中,SongGeneration-large版本实现5.1%的PER(字错率)、7.82的Audiobox美学评分及7.95的综合SongEval得分,其中歌词对齐度(CE 6.09)、伴奏丰富度(CU 8.46)等核心指标已超越Suno、Mureka等闭源系统。英文生成任务中,large版本PER达14.9%,Audiobox评分7.85,在开源模型中处于绝对领先地位。
值得注意的是,模型对输入质量敏感:歌词格式错误会导致严重退化,建议严格遵循[Structure] Text规范;同时提供prompt_audio与descriptions可能引发指令冲突,推荐单独使用一种引导方式。官方提供40组中英文示例输入,涵盖流行、摇滚、中国风等12种音乐风格,可作为创作参考。
未来展望
项目路线图显示,团队计划在2025年底前完成五大核心模块升级:多语言强化学习模型(v1.5系列)、全流程微调脚本、音乐VAE编解码器、交互式标注工具及专业级评估套件。随着技术迭代,SongGeneration有望在音乐教育(自动伴奏创作)、广告制作(定制主题曲)、游戏开发(动态配乐)等领域产生颠覆性应用,真正实现"人人皆可创作专业歌曲"的技术愿景。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



