腾讯开源SRPO算法登顶Hugging Face:AI生图去油黑科技,真实感提升300%
2025年9月17日消息,腾讯混元实验室联合香港中文大学(深圳)、清华大学研发的图像优化算法SRPO(Semantic Relative Preference Optimization)近日引发行业震动。该模型不仅登顶Hugging Face趋势榜首位,更与腾讯另一模型包揽榜单前三中的两席,展现出中国AI企业在开源领域的强劲实力。目前Hugging Face模型趋势榜前六名中,腾讯、百度、阿里三家中国企业占据五席,标志着国内AI技术在国际开源社区的话语权持续提升。
作为针对主流AI生图模型Flux人像生成"塑料感"、"油腻肤质"等痛点的解决方案,SRPO通过创新的语义偏好优化机制,将图像真实度与美学质量的人类评估指标提升超300%。该项目于9月13日正式开源,完整训练代码、技术文档及社区量化版本已同步发布,在短短四天内GitHub星标数突破600,社区量化模型下载量达1.6万次,成为近期生成式AI领域最受关注的技术突破。
突破采样瓶颈:Direct-Align技术重构扩散模型优化路径
传统扩散模型优化面临着"两难困境":采用多步采样器(如DDIM)结合梯度反传的方法虽能对齐奖励偏好,但计算成本高昂且易引发梯度爆炸;而仅优化生成轨迹后半段的妥协方案,又会导致奖励模型在高频信息上的过拟合——表现为HPSv2奖励模型偏好红色调、PickScore倾向紫色图像、ImageReward对过曝区域评分偏高等"奖励模型评估偏差"现象。
SRPO团队另辟蹊径,从扩散模型前向公式的数学本质出发,发现中间图像作为噪声与干净图像的插值特性,提出了单步推理的Direct-Align采样策略。该方法通过可控噪声注入与参考锚点重建机制,在初始时间步骤即可实现高度噪声图像的稳定恢复,将计算复杂度降低60%的同时,解决了传统方法优化不完整的问题。这种"带标准答案"的去噪机制,使扩散模型能够在整个生成轨迹上保持优化一致性,为后续语义引导奠定了技术基础。
语义方向盘:动态偏好调节规避奖励模型固有偏差
针对文生图领域奖励模型难以满足多样化后训练需求的行业痛点,SRPO创新性地提出"语义引导偏好"机制。研究团队发现,主流图像-文本双分支奖励模型中,文本分支输出可视为模型参数关于图片特征的函数,通过调整文本分支语义特征,能够精准控制奖励模型的优化方向。实验证实,添加"真实感"等控制提示词,可使奖励模型在特定维度的评估能力提升40%。
为彻底解决奖励模型评估偏差风险,团队进一步开发"语义相对偏好优化"策略:通过正向词与负向词的协同引导,利用负向梯度中和图像分支产生的系统性偏差。该机制借鉴无分类器引导(classifier-free guidance)的实现思路,采用加权奖励公式平衡训练效率与控制强度,使模型在保留语义差异的同时,有效规避单一奖励模型的固有缺陷。这种动态调节能力,让开发者无需重新训练奖励模型或设计复杂复合函数,即可快速适配真实感增强、肤质优化等特定需求。
如上图所示,SRPO模型在Hugging Face平台的实时数据面板清晰展示了其受欢迎程度。这一现象充分体现了国际开源社区对中国AI技术创新的高度认可,为算法工程师和研究人员提供了零成本优化生图模型的有效工具。
实测验证:300%性能跃升与零奖励模型评估偏差的技术突破
在文生图领域权威评测基准HPDv2上,SRPO展现出压倒性优势:Direct-Align采样策略单独使用时,即在Aesthetic predictor v2.5(AE)、PickScore等指标上达到SOTA水平;结合语义相对偏好优化后,人类评估的美学优秀率从8.2%提升至38.9%,图像感知真实度从基线水平提升300%以上,且未出现任何可检测的奖励模型评估偏差现象。
对比实验显示,优化后的FLUX.1.dev模型性能超越最新开源版本FLUX.1.krea,仅需1500张图像即可完成有效训练。在风格可控性测试中,SRPO对亮度调整、漫画风格、概念艺术等常见需求表现出精细调节能力,仅在赛博朋克等低频风格上受限于奖励模型识别能力。值得注意的是,当结合真实照片数据进行离线优化时,模型真实感可获得进一步提升,显示出该框架强大的扩展性。
技术普惠化:ComfyUI无缝集成与开源生态建设
为降低技术落地门槛,SRPO团队提供了ComfyUI可视化工作流支持,开发者仅需导入预设JSON文件即可完成部署。项目已在Hugging Face、GitCode等平台建立完整开源生态,包括基础模型(tencent/SRPO)、GGUF量化版本(befox/SRPO-GGUF)、Refine专项优化版(wikeeyang/SRPO-Refine-Quantized-v1.0)等多个衍生版本,满足不同硬件环境与应用场景需求。技术报告已发布于arXiv(编号2509.06942),详细阐述了算法原理与实验细节。
未来展望:可控性与可解释性成下一代优化方向
SRPO通过整合人类偏好信号与强化学习机制,开创了扩散模型系统性优化的新范式,但其在低频风格控制、跨模态语义对齐等方面仍有提升空间。腾讯混元团队表示,下一代技术将聚焦三大方向:开发可学习控制词增强语义引导精度、构建多模态奖励模型突破单一模态局限、设计动态权重调节机制实现偏好的细粒度控制。这些改进有望进一步降低高质量AI生图技术的应用门槛,推动生成式AI在内容创作、数字孪生、虚拟人等领域的产业化落地。
随着SRPO等技术的开源共享,AI生图正从"能画"向"画好"加速演进。这种将学术突破与开源精神结合的模式,不仅提升了中国AI技术的国际影响力,更为全球开发者提供了创新基石,预示着生成式AI技术普惠化时代的加速到来。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



