给大模型生图“去油”,混元这个新研究火了

感谢大家的喜欢 ♥️

腾讯混元生图团队最近发布的工作SRPO受到了社区的热烈欢迎,项目在9月10日发布之后登上了HuggingFace热度榜榜首,同时社区量化版本下载量达25K,Github Star 超过了700。

该工作主要提供了文生图模型的强化算法,解决了开源文生图模型Flux的皮肤质感“过油”的问题,能让人像真实感提升3倍,Flux是目前开源文生图社区中最广泛使用的基础模型。

针对Flux.dev.1模型生成的人物质感“过油”的问题,SRPO(Semantic Relative Preference Optimization,语义相对偏好优化)通过在线调整奖励偏好,优化早期生成轨迹等手段很好的解决了这个问题。

仅需10分钟,SPRO就能将生成图片的真实度提升3倍,并收获了社区的一致好评。

图片

图:SPRO效果,人物毛孔清晰可见,毛发纤毫毕现

以下是效果对比:

左图为优化后

图片

图片

左图为优化后

图片

图片

左图为优化后

图片

图片

背后的技术揭秘


在线奖励调整


文生图领域传统的在线强化学习方法(如ReFL,DRaFT)虽展现极高的训练效率,但强依赖一个预先训练好的奖励模型。这些奖励模型除了需要耗费大量的成本收集数据外,还面临泛化性差的问题,通常难以满足多样化,高质量的后训练需求。

为了解决这个问题,腾讯混元团队联合香港中文大学(深圳)和清华大学近日提出创新性解决方案:语义相对偏好优化(Semantic Relative Preference Optimization)。该方法创新性地提出了另一条解决思路——通过语义偏好实现奖励模型的在线调整。具体来说,SRPO通过为奖励模型添加特定的控制提示词(如“真实感”)来定向调整其优化目标。实验结果显示,这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力。

图片

进一步,研究人员发现,单纯的语义引导仍存在奖励破解(rewardhacking)的风险。针对这一问题,团队提出创新的“语义相对偏好优化”策略:同时使用正向词和负向词作为引导信号,通过负向梯度有效中和奖励模型的一般性偏差,同时保留语义差异中的特定偏好。

优化早期生成轨迹

图片


研究团队发现,传统方法(如ReFL,DRaFT)通常仅优化生成轨迹的后半段,这种策略极易导致奖励模型在高频信息上的过拟合问题。具体表现为:HPSv2奖励模型会偏好偏红色调的图像,PickScore倾向于紫色图像,而ImageReward则容易对过曝区域给出较高评分。基于这些发现,研究团队创新性的提出Direct-Align策略,对输入图像进行可控的噪声注入,随后通过单步推理,借助预先注入的噪声作为“参考锚点”进行图像重建。这种方法显著降低了重建误差,实现更精准的奖励信号传导。从而支持对生成轨迹的前半段进行优化,解决过拟合问题。

图片

训练仅需10分钟&真实感提升3倍!


SRPO具有极高的训练效率,只需10分钟训练即可全面超越DanceGRPO的效果。

图片

与主流方法DanceGRPO对比无明显hacking现象,显著提升模型真实感

图片

使用主流reward上未出现任何偏色、过饱和等奖励破解问题

SRPO 定量指标达SOTA水平,人类评估的真实度和美学优秀率提升超过3倍,训练时间相比DanceGRPO降低75倍。

图片

图片

  • 论文题目: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

  • 论文链接:https://arxiv.org/abs/2509.06942

  • 项目主页:https://tencent.github.io/srpo-project-page/

  • GitHub:https://github.com/Tencent-Hunyuan/SRPO

加入微信群即可了解更多“腾讯开源新动态”

图片

#混元、#大模型、#文生图、#开源、#腾讯、

分布式微服务企业级系统是一个基于Spring、SpringMVC、MyBatis和Dubbo等技术的分布式敏捷开发系统架构。该系统采用微服务架构和模块化设计,提供整套公共微服务模块,包括集中权限管理(支持单点登录)、内容管理、支付中心、用户管理(支持第三方登录)、微信平台、存储系统、配置中心、日志分析、任务和通知等功能。系统支持服务治理、监控和追踪,确保高可用性和可扩展性,适用于中小型企业的J2EE企业级开发解决方案。 该系统使用Java作为主要编程语言,结合Spring框架实现依赖注入和事务管理,SpringMVC处理Web请求,MyBatis进行数据持久化操作,Dubbo实现分布式服务调用。架构模式包括微服务架构、分布式系统架构和模块化架构,设计模式应用了单例模式、工厂模式和观察者模式,以提高代码复用性和系统稳定性。 应用场景广泛,可用于企业信息化管理、电子商务平台、社交应用开发等领域,帮助开发者快速构建高效、安全的分布式系统。本资源包含完整的源码和详细论文,适合计算机科学或软件工程专业的毕业设计参考,提供实践案例和技术文档,助力学和开发者深入理解微服务架构和分布式系统实现。 【版权说明】源码来源于网络,遵循原项目开源协议。付费内容为本人原创论文,包含技术分析和实现思路。仅供学习交流使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值