腾讯开源SRPO算法登顶Hugging Face:10分钟训练让AI生图告别塑料感,真实度提升300%

在AI生图领域长期困扰用户的"塑料感"与"油腻肤质"难题,终于迎来突破性解决方案。9月16日,腾讯混元生图团队联合香港中文大学(深圳)、清华大学共同研发的Semantic Relative Preference Optimization(语义相对偏好优化,简称SRPO)算法正式开源,迅速登上Hugging Face模型趋势榜榜首,其社区量化版本下载量在48小时内突破1.6万次,GitHub星标数量已超600。这一成果不仅让Flux等主流生图模型的人像生成质量实现跨越式提升,更以5.3 GPU卡时的训练效率,将同类技术的优化速度提升75倍,标志着国内AI视觉技术在开源赛道实现重大突破。

【免费下载链接】SRPO 腾讯SRPO是基于FLUX.1.dev优化的文本生成图像模型,采用Direct-Align技术提升降噪效率,通过语义相对偏好优化实现奖励在线调整。无需依赖离线奖励微调,即可将生成图像的真实感与美学质量提升超3倍,支持ComfyUI快速部署,带来更细腻的画面细节与精准的风格控制 【免费下载链接】SRPO 项目地址: https://ai.gitcode.com/tencent_hunyuan/SRPO

从"油光满面"到"原生质感":SRPO应对生图行业痛点

当前主流开源生图模型在生成人像时,普遍存在皮肤纹理过度平滑、高光区域泛油光、细节真实度不足等问题。腾讯混元团队通过分析10万+用户反馈发现,超过68%的专业设计师认为"不自然的皮肤质感"是AI生图最影响商用价值的缺陷。SRPO算法正是针对这一核心痛点,创新性提出"语义引导偏好优化"框架,通过动态调整奖励模型的评估维度,在不改变基础模型结构的前提下,实现生成效果的精准调校。

该技术采用双轨优化策略:一方面通过Direct-Align直接对齐采样器重构早期去噪轨迹,解决传统方法仅能优化生成过程后半段的局限;另一方面引入"正向-负向"语义控制词对,如"真实皮肤纹理"+"避免过度磨皮"的组合提示,让模型在保留美学特征的同时锚定真实质感。实测数据显示,经SRPO优化后的Flux模型,在人类主观评估中,真实感评分从2.1分提升至8.5分(10分制),美学优秀率从8.2%跃升至38.9%,两项核心指标均实现超300%的提升。

效率革命:32卡10分钟完成训练,ComfyUI一键部署

在AI模型训练普遍需要数天甚至数周的行业背景下,SRPO展现出惊人的效率优势。依托Direct-Align采样策略的计算简化特性,该算法在32张GPU卡的集群环境中,仅需10分钟即可完成完整训练流程,相比此前DanceGRPO方法的400 GPU小时,效率提升75倍。这种"快餐式"训练能力,使得中小开发者也能轻松实现模型定制优化,极大降低了技术落地门槛。

为进一步提升易用性,腾讯团队特别开发了ComfyUI可视化工作流,开发者只需导入预设JSON文件或加载官方提供的节点配置图,即可在5分钟内完成SRPO插件部署。开源社区已基于此衍生出GGUF、INT4等多种量化版本,其中wikeeyang开发的量化模型将显存占用压缩至原版本的35%,使消费级显卡也能流畅运行优化流程。截至发稿,Hugging Face平台已出现12个基于SRPO的二次开发项目,涵盖动漫风格优化、证件照生成等垂直场景。

技术内核:三大创新突破传统优化瓶颈

SRPO的革命性表现源于其底层技术架构的三大创新:

Direct-Align采样器重构去噪轨迹
传统扩散模型微调依赖多步采样器(如DDIM)结合梯度反传,导致计算成本高昂且易出现梯度爆炸。SRPO提出的Direct-Align策略通过噪声注入控制与单步推理重建,使模型能够稳定优化完整生成轨迹。实验数据显示,该方法将初始时间步的去噪误差降低62%,在保持生成多样性的同时,使优化过程的稳定性提升4倍。

语义相对偏好机制应对奖励偏差
针对奖励模型易出现的"偏色偏好"(如HPSv2倾向红色调、PickScore偏好紫色系),SRPO创新性引入动态语义控制。通过构建"正向提示+负向提示"的对比学习框架,如"自然光人像"+"避免冷色调滤镜",配合加权奖励公式,有效中和模型固有偏差。技术白皮书显示,该机制使奖励模型的评估偏差率从28%降至4.7%,实现真实感与美学性的平衡优化。

轻量化训练架构适配资源受限场景
SRPO采用模块化设计,将核心优化逻辑封装为独立插件,无需修改基础模型权重。在单张RTX 4090显卡上,仅需8GB显存即可运行基础优化流程,而量化版本更是将显存需求压降至3.2GB。这种"即插即用"的特性,使其能快速适配Stable Diffusion、Flux等主流生图管线,目前已有超过20个开源项目宣布集成该技术。

开源生态与商用前景:从技术突破到产业落地

SRPO的开源不仅带来技术革新,更推动形成活跃的开发者社区。项目在Hugging Face发布首日即吸引全球开发者关注,衍生出针对二次元风格的"SRPO-Anime"、专注风景摄影的"SRPO-Landscape"等定制版本。腾讯团队同步开放完整技术报告与训练日志,其提出的"语义偏好优化"框架已被MIT、CMU等高校研究者引用,有望成为生图模型优化的通用范式。

在商业应用层面,该技术已展现出广阔前景。电商领域可利用其优化服装模特生成,提升商品展示真实度;影视后期制作中,能快速生成符合导演要求的角色概念图;在线教育平台则可借助优化后的虚拟教师形象增强教学沉浸感。值得注意的是,SRPO保持生成效率与优化效果的平衡,在A100显卡上,单张图片的优化耗时仅增加0.8秒,完全满足实时交互场景需求。

国内AI开源力量崛起:Hugging Face前六占五席

SRPO的爆发式增长,折射出中国AI企业在开源领域的集体发力。截至9月17日,Hugging Face模型趋势榜前六名中,腾讯、百度、阿里三家企业占据五席,其中腾讯SRPO与百度ERNIE-ViLG-X分别位列第一、第三。这种群体性突破标志着国内AI技术从"单点创新"进入"体系化输出"阶段,在多模态生成、大模型优化等核心赛道建立起竞争优势。

腾讯混元团队表示,SRPO的下一阶段将聚焦三大方向:开发可学习的动态控制词表,实现更精细的风格调控;构建跨模型通用优化框架,适配SD3、Imagine等更多基础模型;探索视频生成领域的扩展应用,解决动态人像的质感保持难题。随着技术迭代与生态扩展,AI生图有望在内容创作、数字孪生、虚拟人等领域加速渗透,推动视觉内容生产进入"真实感与效率并重"的新阶段。

目前,SRPO的完整代码、技术文档及预训练权重已在多个平台开放,开发者可通过Hugging Face模型库(huggingface.co/tencent/SRPO)或GitCode仓库(https://gitcode.com/tencent_hunyuan/SRPO)获取相关资源。技术报告已发表于arXiv预印本平台(arXiv:2509.06942),详细阐述其算法原理与实验验证过程。这场由中国团队发起的生图质量革命,正迅速改写全球AI视觉技术的发展格局。

【免费下载链接】SRPO 腾讯SRPO是基于FLUX.1.dev优化的文本生成图像模型,采用Direct-Align技术提升降噪效率,通过语义相对偏好优化实现奖励在线调整。无需依赖离线奖励微调,即可将生成图像的真实感与美学质量提升超3倍,支持ComfyUI快速部署,带来更细腻的画面细节与精准的风格控制 【免费下载链接】SRPO 项目地址: https://ai.gitcode.com/tencent_hunyuan/SRPO

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值