DeepSeek-OCR刚发布，智谱清华联手再用 VLM 视觉处理长上下文

最新推荐文章于 2025-12-09 18:16:25 发布

原创最新推荐文章于 2025-12-09 18:16:25 发布 · 754 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

AI处理长文本的尽头，或许是把文本变成图或视频。

DeepSeek-OCR刚发布，马斯克说：从长远来看，人工智能模型的输入和输出中 99% 以上都将是光子。直到不能缩放。

第二天，智谱就发布论文《Glyph: Scaling Context Windows via Visual-Text Compression》（通过可视文本压缩缩放上下文窗口），核心思想简直一模一样。

GitHub的开源链接也同一时间放出来了，可能模型训练慢了点（猜的😄），不然应该与DeepSekk-OCR同时发布并开源。

大型语言模型的能力越来越强，但在处理长篇文档，复杂的代码库或多步骤推理任务时，总会撞上一堵名为上下文长度的墙。

如果将上下文窗口暴力扩展到百万Token级别，会带来难以承受的计算和内存成本，这极大地限制了长上下文模型的实际应用。

清华大学交叉信息研究院CoAI团队，智谱AI，清华大学知识工程研究室（KEG），提出了一个名为Glyph的全新框架。

Glyph不再执着于扩展基于Token的文本序列，而是先将长篇文字渲染成一张紧凑的图片，然后让一个视觉-语言模型（VLM）去阅读这张图片。

这个简单的思路，带来了革命性的效果。

以小说《简·爱》为例，全书约有24万个文本Token。一个拥有128K上下文窗口的传统大模型，连一半都装不下，自然无法回答简离开桑菲尔德后，是谁帮助了她？这类需要通览全文的问题。

Glyph将整本书渲染成一系列紧凑的图像后，总共只占用了约80K个视觉Token。一个128K上下文的VLM就能轻松看完整本书，并准确回答上述问题。

这种视觉-文本压缩技术，在保持与Qwen3-8B等顶尖模型相当准确率的同时，实现了3到4倍的Token压缩，带来了约4倍的推理速度提升和约2倍的监督微调（SFT）训练加速。

它为长上下文建模，打开了一扇全新的大门。

AI被困在了序列长度的牢笼里

模型处理的文本越长，注意力机制所需要的计算量就呈二次方增长。这意味着上下文长度增加一倍，计算和内存成本会增加四倍。这道指数级的墙，让百万级上下文的处理变得异常昂贵。

为了拆掉这堵墙，研究者们探索了许多路径。

一种是改造位置编码，比如YaRN技术，它让预训练好的模型能够外推，接受比训练时更长的输入。但这种方法治标不治本，它既不能加速推理，在处理超长序列时准确性也会下降。

另一种是修改注意力机制本身，比如使用稀疏注意力或线性注意力。这些方法通过让每个Token只关注一部分相关的Token，将二次方的计算复杂度降低。这在一定程度上提升了效率，但Token的总数并没有减少。当上下文长度增长到几十万时，总体开销依然巨大。

还有一种是检索增强生成（RAG），它通过从外部知识库中检索相关片段来缩短输入。这种方法很实用，但它依赖检索器的准确性，可能会遗漏关键信息，并引入额外的系统延迟。

这些方法都在同一个框架内打转：如何更高效地处理一个超长的文本Token序列。

Glyph则跳出了这个框架，它提出的问题是：为什么我们一定要处理文本Token序列？

Glyph让AI学会了看图读书

Glyph的核心洞察在于，图像承载信息的方式，比线性文本要密集得多。

一个视觉Token（图像的一个小块），可以包含多个单词甚至一整行文字，而这些文字原本需要几十个文本Token来表示。

Glyph利用视觉-语言模型（VLM）的能力，直接在文本的字形（glyph）上进行操作，将每个视觉Token都视为多个文本Token的紧凑载体。

通过这种方式，一个上下文窗口固定的VLM，能够处理比同等窗口大小的纯文本LLM长得多的文本内容。

这个过程，Glyph通过一个系统性的三阶段框架来实现。

第一阶段是持续预训练。

这个阶段的目标，是把模型强大的长上下文理解能力，从它熟悉的文本世界，迁移到全新的视觉世界。

研究团队收集了包括书籍，文章，代码在内的大量长文本数据，然后将它们渲染成各种风格的图像，构成了一个庞大的视觉文本数据集。

渲染时，他们故意引入了各种变化，比如不同的字体大小（9-14pt），不同的字体样式（SourceSans3，Verdana），不同的页面布局（960×540），不同的背景颜色和行高。

这样做的目的，是让模型学会适应各种视觉化的文本，而不是只认识某一种特定的印刷品。

训练时，模型被要求完成两项任务。一项是类似完形填空的掩码语言建模，即随机遮盖图像中的一部分文字，让模型根据上下文猜出被盖住的内容。这能迫使模型学习如何从视觉信号中重建文本信息。

另一项是更直接的长上下文理解任务，即向模型展示完整的渲染文本图像，然后就全文内容进行提问。

通过这个阶段的特训，VLM初步具备了看图读书的能力。

第二阶段是LLM驱动的渲染搜索。

如何将文本渲染成图片，这里面大有学问。

字体大一点，AI可能看得更清楚，但一张图能装下的内容就少了，压缩率就低了。

页面布局紧凑一点，压缩率高了，但如果文字挤成一团，AI可能就看不懂了。

字体大小，页面布局，图像分辨率，背景颜色……这些渲染参数的任意组合，都会直接影响最终的压缩率和模型性能。

这个参数组合构成的搜索空间极其庞大，手动去试显然不现实。

Glyph设计了一种由LLM驱动的遗传搜索算法，来自动寻找最优的渲染配置。

遗传算法的流程，模仿了生物进化。

它首先会随机生成一批初始的渲染配置方案，作为初始种群。

然后，它会用每一种方案去渲染文本，并让一个作为裁判的LLM来评估效果，给出适应度评分。这个评分会综合考虑压缩率，光学字符识别（OCR）的准确率，以及模型在下游任务上的初步表现。

得分高的方案会被保留下来，进入繁殖阶段。它们会像生物遗传一样，进行交叉和变异，组合出新的，可能更优秀的配置方案。

这个评估-选择-繁殖的过程会不断迭代，直到找到一组在压缩率和性能之间取得最佳平衡的帕累托最优配置。

这套由LLM驱动的自动化搜索机制，是Glyph的关键创新之一，它用AI的智慧，为AI找到了最高效的学习材料。

第三阶段是后训练。

找到了最佳的渲染菜谱后，就需要对模型进行精细化的烹饪了。

后训练阶段包含监督微调（SFT）和强化学习（RL）。

在监督微调阶段，研究团队使用大量高质量的图文对数据，比如渲染后的文档和对应的问题答案，对模型进行训练。这让模型学会在视觉压缩的设定下，完成问答，摘要等具体任务。

为了让模型的回答更符合人类的偏好和逻辑，研究团队还引入了基于人类反馈的强化学习（RLHF）。人类对模型的不同回答进行排序打分，这些反馈信号会指导模型优化自己，生成更高质量的响应。

值得一提的是，在整个后训练过程中，Glyph还加入了一个辅助的OCR（光学字符识别）任务。

这个任务要求模型不仅要理解图片里文字的意思，还要能精准地读出每一个字。这就像让学生在做阅读理解的同时，也练习朗读和抄写。

这个简单的辅助任务，极大地增强了模型对图像内文本细节的识别能力，更好地对齐了它的视觉和文本表征，让最终的Glyph模型既能看懂，也能读准。

实验结果证明了新范式的威力

Glyph在一系列长上下文基准测试中，证明了其方法的有效性。

首先是压缩效率。

3到4倍的Token压缩率，意味着原本需要一个拥有400K上下文窗口的LLM才能处理的任务，现在一个128K上下文的Glyph模型就能胜任。

在一次极限测试中，一个128K上下文的VLM，通过Glyph的视觉压缩，成功处理了百万Token级别的文本任务。

其次是性能保持。

压缩了这么多，性能会下降吗？实验结果给出了否定的答案。

在LongBench和MRCR等多个权威的长上下文基准测试中，Glyph的准确率与强大的开源模型Qwen3-8B不相上下。

这证明了Glyph的视觉压缩是一种无损压缩，它在显著减少Token数量的同时，几乎没有牺牲模型的语义理解能力。

最后是速度的巨大提升。

Token数量的减少，直接带来了计算量的下降，最终体现为训练和推理速度的提升。

Prefill阶段是模型处理输入提示的过程，解码阶段是模型生成回答的过程。在这两个核心环节，Glyph都实现了超过4倍的速度提升。在训练阶段，监督微调的速度也翻了一倍。

这种全方位的效率提升，让Glyph在处理海量长文本的实际应用场景中，具备了无可比拟的优势。

案例研究也展示了Glyph在真实世界任务中的能力。

在处理长篇小说《简·爱》（约240K文本Token）时，Glyph能通览全局，回答跨越多个章节的复杂问题。

在分析一个包含180K文本Token的大型代码库时，Glyph能够准确识别跨文件的函数调用和依赖关系，这是传统上下文受限模型无法做到的。

有趣的是，尽管Glyph是为文本压缩而设计的，但它在处理图文混排的真实多模态任务时，也表现出了优异的性能。

Glygph的准确率比传统的VLM高出许多，证明了这种方法的强大泛化潜力。

视觉压缩可能成为AI的新语言

Glyph的成功，为长上下文建模指出了一条全新的，可能更具前景的道路。

它不再纠结于如何优化注意力机制去处理更长的序列，而是从根本上改变了信息的表示方式，从一维的文本序列，变成了二维的视觉信息。

这种范式转移，带来了计算效率和信息密度的双重提升。

它也存在一些待解决的挑战。比如渲染过程本身需要额外的计算开销，渲染的质量直接影响模型性能，以及在某些高度结构化的特殊文档格式上，可能还需要进一步的优化。

未来的研究可以探索自适应渲染，即让系统根据文本内容的特点，自动调整渲染参数。也可以将这一框架扩展到更广泛的多模态应用中。

Glyph的探索证明，视觉-文本压缩更有可能成为下一代AI系统处理信息的基本方式。

AI将不再逐字阅读，而是学会了一目十行。

参考资料：

https://arxiv.org/abs/2510.17800

https://arxiv.org/abs/2401.01567

https://github.com/thu-coai/Glyph

END

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。