LeVo模型重磅发布：SongGeneration开启AI全曲创作新纪元，支持4分30秒人声伴奏同步生成-优快云博客

LeVo模型重磅发布：SongGeneration开启AI全曲创作新纪元，支持4分30秒人声伴奏同步生成

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

项目概述与核心功能

SongGeneration作为NeurIPS 2025收录论文《LeVo: High-Quality Song Generation with Multi-Preference Alignment》的官方代码库，首次实现了基于语言模型架构的专业级歌曲生成系统。该项目整合了LeLM多模态建模框架与音乐编解码技术，提供从歌词到完整歌曲的端到端创作能力，目前已开放模型权重、推理脚本及数据处理工具链，开发者可通过GitCode仓库（https://gitcode.com/tencent_hunyuan/SongGeneration）获取全部资源。

如上图所示，项目logo通过卡通企鹅演奏吉他的形象，直观传达了AI与音乐创作的融合理念。彩色波浪线与音乐符号的设计元素，象征着模型生成的丰富音频波形与多元音乐风格，为开发者提供了友好且富有科技感的视觉标识。

技术架构解析

SongGeneration创新性地采用双轨 token 并行建模架构：LeLM模块同时处理混合 token（人声与伴奏融合编码）和分离 token（独立编码 vocals 与 accompaniment 轨道），通过音乐编解码器将这些高级语义 token 重构为48kHz高保真音频。这种设计既保证了人声与伴奏的和谐统一，又实现了专业级的轨道分离输出，解决了传统AI作曲中"人声被伴奏淹没"的行业痛点。

技术流程图清晰展示了模型的三阶工作流程：首先对歌词结构、音频参考、风格描述进行多模态 token 化，接着通过 LeLM 进行跨模态融合建模，最终生成的双轨 token 经编解码后输出高质量音频。这种端到端架构避免了传统 pipelines 的信息损耗，为音乐生成质量带来质的飞跃。

版本迭代与功能演进

项目自2025年6月发布以来持续高频更新，核心功能演进路线清晰可见：7月实现10GB显存轻量化部署，支持纯音乐/纯人声分离生成；9月推出的智能数据处理 pipeline，在SSLD-200测试集上实现超越Gemini-2.5的歌词时间戳定位精度；10月密集发布base-new（中英双语支持）、base-full（4分30秒超长生成）及large（性能旗舰版）三个重要版本，其中10月16日上线的Demo系统已支持完整歌曲创作。

当前模型矩阵涵盖四大主力版本：基础版（2分30秒中文生成）、增强版（中英双语）、全时长版（4分30秒双语言）及旗舰版（RFT指标达1.51），显存需求从10GB到28GB不等，全面覆盖从个人开发者到企业级应用的多样化需求。即将推出的v1.5系列更将支持西班牙语、日语等多语言创作，并引入强化学习奖励模型提升音乐性与歌词对齐度。

快速上手指南

环境配置

开发者可通过两种方式部署环境：基础方式需Python 3.8.12+与CUDA 11.8+环境，执行pip install -r requirements.txt完成依赖安装，建议额外安装Flash Attention加速库；Docker用户可直接拉取预配置镜像juhayna/song-generation-levo:hf0613，实现一键部署。Windows用户还可通过ComfyUI插件或专用安装包简化部署流程。

模型下载

通过huggingface-cli工具可快速获取各版本模型：

# 基础版（中文，2分30秒）
huggingface-cli download lglg666/SongGeneration-base --local-dir ./songgeneration_base

# 全时长增强版（中英双语，4分30秒）
huggingface-cli download lglg666/SongGeneration-base-full --local-dir ./songgeneration_base_full

推理实战

使用JSON Lines格式准备输入文件，需包含idx（唯一标识）、gt_lyric（带结构标记的歌词）等核心字段，支持descriptions（风格描述）、prompt_audio_path（参考音频）等可选参数。执行以下命令启动生成：

# 基础生成命令
sh generate.sh ./songgeneration_base ./sample/lyrics.jsonl ./output

# 低显存模式（10GB显存设备）
sh generate.sh ./songgeneration_large ./sample/lyrics.jsonl ./output --low_mem

# 分离轨道生成（人声+伴奏单独输出）
sh generate.sh ./songgeneration_base_full ./sample/lyrics.jsonl ./output --separate

输入歌词需遵循特定格式规范，例如：[Verse] These faded memories of us. I can't erase the tears you cried before. ; [Chorus] Like a fool begs for supper...，支持[Verse]、[Chorus]等结构化标记及纯音乐段落（[intro-short]、[inst-medium]等）。风格描述可指定性别、音色、 genre、情感等维度，如"female, dark, pop, sad, piano and drums"。

性能评估与行业定位

在中文歌曲生成评测中，SongGeneration-large版本实现5.1%的PER（字错率）、7.82的Audiobox美学评分及7.95的综合SongEval得分，其中歌词对齐度（CE 6.09）、伴奏丰富度（CU 8.46）等核心指标已超越Suno、Mureka等闭源系统。英文生成任务中，large版本PER达14.9%，Audiobox评分7.85，在开源模型中处于绝对领先地位。

值得注意的是，模型对输入质量敏感：歌词格式错误会导致严重退化，建议严格遵循[Structure] Text规范；同时提供prompt_audio与descriptions可能引发指令冲突，推荐单独使用一种引导方式。官方提供40组中英文示例输入，涵盖流行、摇滚、中国风等12种音乐风格，可作为创作参考。

未来展望

项目路线图显示，团队计划在2025年底前完成五大核心模块升级：多语言强化学习模型（v1.5系列）、全流程微调脚本、音乐VAE编解码器、交互式标注工具及专业级评估套件。随着技术迭代，SongGeneration有望在音乐教育（自动伴奏创作）、广告制作（定制主题曲）、游戏开发（动态配乐）等领域产生颠覆性应用，真正实现"人人皆可创作专业歌曲"的技术愿景。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考