LeVo：革新音乐创作的多模态歌曲生成模型横空出世-优快云博客

LeVo：革新音乐创作的多模态歌曲生成模型横空出世

【免费下载链接】SongGeneration 腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

在人工智能与音乐创作深度融合的浪潮中，一款名为LeVo（SongGeneration）的创新模型正崭露头角。作为基于语言模型（LM）构建的高质量歌曲生成系统，LeVo不仅实现了多维度的用户偏好对齐，更提供了丰富的自定义创作方式，为音乐生成领域带来了突破性进展。其核心框架由两大关键组件构成：LeLM语言模型与高性能音乐编解码器，二者协同工作，共同打造出媲美专业水准的音乐作品。

LeLM作为整个系统的“大脑”，展现出卓越的并行建模能力，能够同时处理两种截然不同的token类型。其中，混合token创新性地将人声与伴奏的组合音频进行统一编码，从根本上保障了人声与乐器之间的和谐融合，避免了传统生成模型中常见的音色冲突问题。而双轨token则采用分离编码策略，分别对人声旋律线和伴奏轨道进行精细化建模，为后续生成高质量、层次分明的歌曲打下坚实基础。这种双重token设计理念，使得LeVo在音乐生成的灵活性与保真度之间取得了完美平衡。

音乐编解码器则承担着将抽象token转化为听觉盛宴的关键角色。它能够精准解码LeLM输出的双轨token，重建出高保真的立体声音频信号。经过在包含百万级歌曲数据的Million Song Dataset上的充分训练，该编解码器已具备处理复杂音乐结构的能力，无论是细腻的人声表达还是丰富的乐器编排，都能得到清晰还原。值得关注的是，LeVo模型已实现对中文和英文双语歌曲的完美支持，其生成质量不仅显著超越了现有开源音乐生成模型，更在多项关键指标上与当前最先进的行业级系统形成有力竞争。

在用户自定义创作方面，LeVo提供了前所未有的灵活度。创作者只需输入歌词文本，并添加简单的结构标签（如[verse]表示主歌、[chorus]表示副歌、[intro-short]表示简短前奏），即可精确控制歌曲的段落安排。更进一步，系统支持通过文本提示词进行多维度风格指导，涵盖演唱者性别、音色特点、音乐流派、情感基调、乐器组合乃至BPM（每分钟节拍数）等细节参数。对于追求特定风格的创作者，LeVo还创新性地引入了参考音频功能——仅需提供10秒长度的示例音频，模型便能快速捕捉其风格特征，并据此生成全新的相似风格作品，极大降低了音乐创作的专业门槛。

随着LeVo模型的推出，人工智能辅助音乐创作的边界正被不断拓展。其强大的技术架构与人性化的创作界面，不仅为音乐爱好者提供了释放创意的全新工具，更为专业音乐制作领域带来了效率革命。未来，随着模型在更多语种和音乐风格上的持续优化，我们有理由相信，LeVo将成为连接人工智能与音乐艺术的重要桥梁，推动音乐创作进入个性化、智能化的全新纪元。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考