COLM 2025 核心论文解析（Outstanding+Spotlight）+AI/MLsys视角(上)

最新推荐文章于 2025-12-01 19:45:15 发布

原创

最新推荐文章于 2025-12-01 19:45:15 发布 · 1.5k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

前言

COLM （Conference on Language Modeling）2025 已于 2025 年 10 月 7–10 日在加拿大蒙特利尔的蒙特利尔会议宫（Palais des Congrès）举行。大会前三天为单轨日程，包含特邀报告、论文口头报告与海报展示；第四天专设为工作坊。COLM（Conference on Language Modeling）是一个聚焦“语言建模”的新兴学术会议。它由社区内多位学者与业界研究者在 2023 年下半年发起，首届于 2024 年在宾夕法尼亚大学举办，今年是第二届。

COLM 2025 will take place at the Palais des Congrès in Montreal, Canada from October 7-10, 2025

COLM 是怎么来的？

发起背景：随着大模型成为核心范式，社区希望有一个专门面向“语言建模”本身（而非泛 NLP）的顶层论坛；2023 年 10 月，多位学者在社交媒体上宣布成立 COLM，并上线官网与征稿信息。X

Sasha Rush introduce COLM on X

组织与治理：设有学术委员会/董事会与程序委员会，2025 年组织团队与董事会成员来自 UW、Princeton、Google DeepMind、Meta、KAIST 等高校与机构，显示出较强的学术背书与跨界色彩。COLM

COLM Board

会议形态：COLM 采用单轨形式召开主会，是“存档型”会议；论文在 OpenReview 上经历公开化的评审流程并长期托管；大会还会安排 keynote 与 panel 等活动，促进系统性交流与讨论。COLM

现在的地位

新兴但增长迅速：虽仅第 2 届，但已形成较高能见度——2024/2025 年邀请报告与圆桌覆盖从基础研究到安全与科学应用等板块（如 Luke Zettlemoyer、Shirley Ho、Nicholas Carlini 等）。YouTube
论文与社区活跃度：会议采用公开化的 OpenReview 流程，发布接收论文清单；2025 年的接收规模很可观（418篇）。OpenReview
学术定位：与 ACL/EMNLP/NeurIPS/ICLR 等“综合型”大会并行，COLM 更像是“LM 专题旗舰”——把模型本体（训练、对齐、推理、评价、社会影响、系统实现等）作为第一公民来组织议题与审稿；因创办时间短，传统的长期声誉指标与排名体系（例如多年滚动指标）尚在形成之中。会议目前以其专题聚焦度、单轨深度与公开评审而获得关注。COLM

以“AI infra / MLsys ”视角选读COLM的最新论文?

COLM 2025的论文中不少都涉及AI infra / MLsys相关主题，原因可能是：

1.会议定位就把“工程与系统”放在一等公民：COLM 的征稿主题里明确把“工程化大模型（Engineering for large LMs）”、“算力与效率（Compute-efficient LMs）”、“推理/解码算法（Inference algorithms）”列为重点方向，例如分布式训练与推理、不同硬件平台上的优化、量化/剪枝/蒸馏、记忆与样本效率等——这天然与 AI 基础设施、ML 系统重合度极高。同时，COLM 的评审指南强调实证、可复现与技术影响，这与系统论文的证据形态契合（大规模实验、开源工件、可复现实验）。

2.语言建模的“核心科学问题”离不开系统支撑：COLM 把“语言模型”广义化，目标是“理解、改进并批判 LM 技术”本身；而在当下，LM 的可扩展性、效率与可靠性基本都要靠系统层方案（并行训练、解码加速、内存/带宽约束下的架构权衡）来落地，因此系统论文在该会议自然占比不低。

=============Spotlight +Outstanding Paper==============

按照五个部分解释（面对什么问题， AI infra / MLsys的相关性，解决问题的 landscape 与路径, 创新点及对比工作, 研究扩展与实现价值），由于篇幅太长，将分两篇讨论。

Understanding R1-Zero-Like Training: A Critical Perspective

Zichen Liu*†1,2, Changyu Chen*1,3, Wenjun Li*3, Penghui Qi*1,2,Tianyu Pang1, Chao Du1, Wee Sun Lee2, Min Lin1

1 Sea AI Lab 2 National University of Singapore 3 Singapore Management University

面对什么问题

误归因与可复现性：社区把 R1-Zero 训练中“长推理链 + Aha moment”的出现，普遍归因于“RL 会让模型更会思考”；作者指出其中一大部分来自 GRPO 的优化偏置，非纯粹能力涌现（如下图,这两处归一化会让训练偏向“低方差题”，并纵容错误回答变长，从而出现“奖励不再提升但长度继续增长”的现象。）。

Illustration of the biases in GRPO

实现偏差：很多开源 PPO 实现也进行了“按回复长度归一化”的损失计算，同样会引入长度偏置。

Many open-sourced PPO implementations contain length bias

基础模型与模板错配：部分基座（如 Qwen2.5-Math）在不加模板时反而回答最好，说明存在预训练偏置；而错误的模板会先破坏能力，再靠 RL 重新“修回来”。

Qwen2.5-Math models might be pretrained on concatenated question-answer text,resulting in peak performance when no template is applied

AI infra / MLsys的相关性

LLM 后训练（post-training）系统 / RL 优化器正确性：论文核心聚焦 R1-Zero 范式中的 GRPO/PPO 类优化器实现偏置与“模板—题集覆盖—基础模型”三者的系统交互，属于 MLSys 的训练系统与优化器层（面向 token 效率与训练稳定性）。
工程/效率维度：强调输出长度膨胀的成因及其对token 成本的影响，并提出无偏优化器 Dr. GRPO 提升效率与稳定性（不再奖励“越错越长”）。

解决问题的 landscape 与路径

Landscape（方法图谱）

优化器：GRPO（带组内均值/方差标准化） ⇨ Dr. GRPO（移除 1/|o| 与 1/std(R) 两项，回到无偏 PPO 目标）。

Dr. GRPO

奖励：以规则校验器为主的 outcome-based reward（是否答对）。可不加 KL 正则，节省引用策略与显存/算力。
基座与模板：基座（Qwen / DeepSeek / Llama）；模板（R1 模板 / Qwen-Math 模板 / 无模板），它们决定初始策略的问答倾向与探索能力。

Model attributes across three aspects

系统目标：抑制“错误样本越答越长”，提升token 效率，并在低算力下达成 SOTA。本文给出极简 recipe：Qwen2.5-Math-7B + Dr. GRPO + MATH L3–5 + Qwen-Math 模板，8×A100 27 小时即达成 AIME24 43.3%。

Model performance comparison. Oat-Zero-7B is RL-tuned with our minimalist recipe

核心创新点与典型工作的对比

本文创新

提出无偏优化器 Dr. GRPO：移除 1/|o|（对错样本的长度偏置）与 1/std(R)（题目难度权重偏置），抑制“错误越写越长”，在相近奖励提升下显著降低输出长度。
基座/模板/题集的系统性解耦：证明 Qwen2.5 无模板更优、模板错配会先降后升、简单题集亦能强提升。
低算力极简配方达到 7B 级 SOTA。

与典型工作的对比

方法（基座）	训练范式	优化器/实现要点	关键设置	AIME24(%)	平均(5项)(%)
Oat-Zero-7B（Qwen2.5-Math-7B）	RL	Dr. GRPO（无偏）	Qwen-Math 模板；MATH L3–5；8×A100≈27h	43.3	51.4
PRIME-Zero-7B	RL	PPO	R1-like 复现	62.7	48.0
SimpleRL-Zero-7B	RL	PPO（实现含长度归一化偏置）	R1-like 复现	26.7	46.6
OpenReasoner-Zero-7B @8k	RL	PPO（实现含长度归一化偏置）	8k 预算	13.3	45.9
R1-Distill-Qwen-7B @8k	SFT蒸馏	—	蒸馏版 R1；8k 预算	33.3	54.7
Qwen2.5-Math-7B*	无RL（基座）	—	无模板推理（*为最优模板设定）	0.2	38.2

研究扩展与实现价值

直接工程收益：省算：在相同或更高正确率下，错误样本更短，token/成本下降（训练与推理均受益）。训练稳定性：避免“奖励增长停滞但长度继续飙升”的异常动力学，便于早停与自动化调参。
落地改造指南：修补 PPO/GRPO 框架：把“按回复长度求均值”的实现改为“按固定上限（如 MAX_TOKENS）归一”，即可去偏——见文中 masked_mean 的绿色改法。模板—题集协同设计：先测无模板/多模板的“回答倾向”，再定题集覆盖；必要时用简单题触发“行为强化”。
可推广性：适用于代码、科学、长上下文等其他“可校验”任务的 RL（规则或程序化校验器）；也可与 process reward 结合。
研究洞见：Aha moment 非纯粹由 RL 诱发：多种基座（含 DeepSeek-V3-Base）在 RL 前已出现自我反思迹象；因此需要更谨慎地解释“能力涌现”。

Hidden in plain sight: VLMs overlook their visual representations （Outstanding）

Hidden in plain sight: VLMs overlook their visual representations

Stephanie Fu UC Berkeley Tyler Bonnen UC Berkeley

Devin Guillory UC Berkeley Trevor Darrell UC Berkeley

面对什么问题

在“视觉中心”的任务上（如语义/功能对应、低层匹配、深度顺序、3D 物体意识、风格匹配），VLM 的准确率从视觉编码器的“近天花板”跌到接近随机；而且视觉编码器在 VLM 中的强弱排序被改写（如下图， DINOv2 视觉评测最强，但嵌入 VLM 后并不最强）。

Evaluating vision language models (VLMs) alongside their vision encoders reveals a failure to utilize visual information

视觉特征在 projector/LLM 中并未显著退化，瓶颈在 LLM 端不会用图像（如下图）；提示词（prompt）微调只能带来边际收益；微调 LLM（相同参数预算下）带来最大增益并减弱“语言先验/盲答分布”。

Comparing standard visual evaluation to VLMs across vision-centric tasks

AI infra / MLsys的相关性

MLSys—多模态系统诊断与能力路由：聚焦 VLM 三段式组件（视觉编码器→投影器→LLM）的信息整合瓶颈、评测协议与训练/微调位点选择（ViT / projector / LLM）的系统级权衡。

解决问题的 landscape 与路径

逻辑可行性

特征是否丢失？ projector/LLM 破坏了视觉表征 → 证据否定：中间层视觉探针（probe）仍高分，特征可被读出。应把注意力放在如何让 LLM 用起来。

Visual evaluations for intermediate VLM layers

提示是否关键？对 prompt 极其敏感 → 实验：prefix-tuning（1/5/10 embedding）收益有限且递减，难以弥补鸿沟（如下图，给 VLM 做前缀提示微调（prefix-tuning）几乎没用，而且“多加前缀”收益递减）。

Prompt-tuning evaluation

瓶颈在语言头部：如何逼迫“用图像”？a：优化“注意力-定位”——让跨模态注意力在关键区域/选项 token 上聚焦（如下图，显示 LLM 微调后在 REF/选项处 attention 明显上升）。b：抑制语言先验——需校准/正则让答案分布贴近 GT。c：任务解构——将视觉判别作为决策前置的可微/可外接工具，减少 LLM 纯语言主导。

Visualizing the difference between attention maps before and after fine-tuning the LLM

现实可行性

优先策略：微调 LLM（LoRA）--》与微调 ViT/Projector 同参量预算下，LLM 微调提升最大；并显著缩小与视觉上限的差距、降低与 GT（Grounding True）的 TV 距离（Total variation distance，如下表格）。→ 先做 LLM 端 LoRA。

Total variation distance between VLM predictions and GT answers

次优策略：小步 prompt-tuning--》只做 1 个 prefix embedding 试水（收益最可能出现），更多 embedding 收益递减。

训练/推理的“视觉读数注入”: 在 VQA 前插入可微或外部读数（如 DPT 深度、ViT patch 相似度、风格 Gram 距离）为“结构化提示/工具调用结果”，减少 LLM 盲猜。

核心创新点与典型工作的对比

本文创新：统一对比“视觉直读 vs. VLM-VQA”，在多类视觉中心任务上证实性能普降与排序颠倒；定位瓶颈在 LLM（非特征退化/非提示敏感）；提出以 LLM 端微调/注意力重分配为主的改进方向与诊断协议。

与典型工作的对比：

论文（年份）	目标/场景	关键方法/数据	主要结论/瓶颈观点	与本文问题的关系	代表性创新
BLINK (Fu’24)	视觉感知“速判”转 VQA	语义/功能对应、风格等 MC 评测	多数开源 VLM 看见但不感知	为本文选的多任务来源之一；支持“VLM 难以仅凭视觉解题”	将传统 CV 任务系统化为 VQA 基准
CV-Bench / Cambrian-1 (Tong’24a)	视觉中心多模态评测	深度/距离/计数等 VQA	报告 VLM 排名偏向 CLIP/SigLIP	本文指出：视觉直读下 DINOv2 更强，VLM 评测排序不可靠	全面 VLM 评测套件与开源模型
Prismatic VLMs (Karamcheti’24)	设计空间审视	多背骨 ViT + 统一训练	组件/分辨率/指令调优影响复杂	本文在其模型上做“固定 ViT、只换评测/微调位点”实验	提供可对照的同骨架多设置平台
What matters… (Laurençon’24)	组件重要性解析	不同 backbone/adapter/调参	指出 LLM 可能是瓶颈	与本文“瓶颈在 LLM”一致，相互印证	系统性因素消融与经验法则
InternVL (Chen’24)	规模化多模态	端到端对齐/多图	多图任务可高于随机但仍受限	本文复现：多图输入能提高，但仍无法追上视觉直读	更强对齐与数据管线
LLaVA / LLaVA-Next (Liu’23/’24)	指令微调范式	LLaVA 数据配方/多图	强常识/识别题，但视觉中心题薄弱	本文借其数据/流程搭建对照，并在多图附录比较	视觉—语言指令调优配方的事实标准

研究扩展与实现价值

快速提效路径：在现成 VLM 上，优先 LoRA 微调 LLM（保持 ViT/Projector 冻结）解决“不会用图像”的核心矛盾；相比调 projector/ViT，更划算且稳定。
部署面向：将视觉直读分支（DPT/patch 相似度/Gram 风格）作为外部工具/结构化特征注入提示，显著降低“盲答分布”影响。
注意力/门控层设计：在跨模态注意力添加显式区域/选项门控，让 LLM 在决策 token 上强制读视觉证据。
语言先验校准：在多选题上加入分布正则/温度校准/反事实训练，让有图与盲答分布的 TV 距离最小化。