腾讯开源 X-Omni:RL缝合混合架构,对标 GPT-4o,中文文本渲染登顶

腾讯研究团队打造了一款新型图像生成模型X-Omni。技术上,采用了强化学习重构混合模型架构;性能上,直接对标OpenAI的GPT-4o。

近日,腾讯研究团队打造了一款新型图像生成模型X-Omni。技术上,采用了强化学习重构混合模型架构;性能上,直接对标OpenAI的GPT-4o。

图片

地址:https://arxiv.org/pdf/2507.22058

这款模型不仅在中英文文字渲染方面刷新了已有基准,还在多个图像生成任务中击败了商用大模型。 

它的核心技术来自不同开源社区,甚至包括直接竞争者,展现出一种“拼图式”AI构建思路。

混合架构的断层,被强化学习缝合

图片

图像生成AI领域,始终存在一个核心难题:如何在语义理解和图像还原之间找到平衡。

目前主流做法,是采用“混合模型”架构:一部分使用自回归模型来生成语义token,另一部分用扩散模型来还原图像。

这种架构的优势是互补,但也带来了新的问题:语义token与扩散解码器之间“语言不通”。

两部分常常各说各话,生成结果的质量不稳定,尤其在遇到复杂文本或高精度场景时,错误容易累积。

腾讯的X-Omni摒弃了传统混合架构“各自训练、强行拼接”的模式,引入统一的强化学习流程,通过RL对齐两部分、提升协同。

图片

首先,由自回归模型生成语义token;接着,扩散模型FLUX.1-dev负责根据token生成图像;再由一个综合评价系统给出反馈,指导自回归模型更精准地输出token。

这个评价系统由三部分组成:人工美学偏好评分、高分辨率图像质量评分模型,以及视觉-语言模型Qwen2.5-VL-32B。

同时,为验证图像中文字是否准确,系统还引入GOT-OCR-2.0与PaddleOCR做比对。

在约200步RL训练后,模型指标已超过SFT+Best-of-N的最佳结果。

结果显示,在相同训练轮数下,X-Omni的输出图像质量超过常规训练方式所得最佳结果。

文本是关键,中文才是战场

图片

在与GPT-4o的对比中,X-Omni在最难的环节,图像中的文字渲染场景中,获得了优势。

图像文字生成一直是大模型的痛点,越长的文本越容易错漏、变形,甚至无法识别。

为此,腾讯团队专门构建了名为“LongText-Bench”的测试基准,用以测评在长段文字下的图像渲染稳定性。

结果显示,X-Omni在英文文本准确率上达到了0.901,超越所有同类模型。

而在中文文本渲染方面,在OneIG中文任务上,X-Omni超过了GPT-4o,与Seedream 3.0表现相当;在中文长文本(LongText-Bench)评测中,X-Omni取得第一。

X-Omni采用的是一种叫SigLIP-VQ的tokenizer,不再以像素为单位构建图像,而是将图像编码为16,384个语义token。

这些token更贴近“概念”,而非图像细节,使模型更擅长理解语言并在图像中复现。

整个系统的语言能力依托于Qwen2.5-7B,这是由阿里巴巴开源的一款语言模型。

腾讯团队在其基础上增加了图像理解与生成模块,使X-Omni具备图文双向通感能力。

这意味着,无论是菜单、海报、UI界面,还是演讲稿、说明书,都可以被自然地转化为高质量图像。

对中国本土市场而言,这种能力至关重要。开源对垒商用,生态之战才刚开始

虽然X-Omni在多个关键维度上表现优异,但它并未宣称“碾压”GPT-4o。评测显示,改进幅度有限,非革命性跃迁。GPT-4o依然在综合性能上具备强大竞争力。

X-Omni的最大意义在于,它将来自多个组织、多个生态的开源技术融为一体,拼出了一个“模块化大模型”的可能形态。

它的扩散模型来自德国初创公司Black Forest Labs。语言模型来自阿里巴巴。评价系统与OCR系统则综合多个开源库构建而成。

这一切被整合进一个由腾讯发布的开源代码与模型,并已在Hugging Face与GitHub上全面开放。

这和OpenAI闭源的GPT-4o构成了鲜明对照。

后者虽然强大,但本质上仍是“黑箱”。当GPT-4o在ChatGPT上线图像生成功能,引发业界惊叹之时,

X-Omni则代表着另一条路径:开放、拼接、重构、调优。

这种路线或许无法一步登天,却为AI产业生态提供了另一种可持续发展模式。“后发者”可以通过策略、工程能力和生态协作缩小差距。

AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。


因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

四、AI大模型商业化落地方案

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值