COLM 2025 核心论文解析(Outstanding+Spotlight)+AI/MLsys视角(上)

前言

COLM (Conference on Language Modeling)2025 已于 2025 年 10 月 7–10 日在加拿大蒙特利尔的蒙特利尔会议宫(Palais des Congrès)举行。大会前三天为单轨日程,包含特邀报告、论文口头报告与海报展示;第四天专设为工作坊。COLM(Conference on Language Modeling)是一个聚焦“语言建模”的新兴学术会议。它由社区内多位学者与业界研究者在 2023 年下半年发起,首届于 2024 年在宾夕法尼亚大学举办,今年是第二届。

COLM 2025 will take place at the Palais des Congrès in Montreal, Canada from October 7-10, 2025

COLM 是怎么来的?

  • 发起背景:随着大模型成为核心范式,社区希望有一个专门面向“语言建模”本身(而非泛 NLP)的顶层论坛;2023 年 10 月,多位学者在社交媒体上宣布成立 COLM,并上线官网与征稿信息。

Sasha Rush introduce COLM on X

  • 组织与治理:设有学术委员会/董事会与程序委员会,2025 年组织团队与董事会成员来自 UW、Princeton、Google DeepMind、Meta、KAIST 等高校与机构,显示出较强的学术背书与跨界色彩。COLM

COLM Board

  • 会议形态:COLM 采用单轨形式召开主会,是“存档型”会议;论文在 OpenReview 上经历公开化的评审流程并长期托管;大会还会安排 keynote 与 panel 等活动,促进系统性交流与讨论。COLM

现在的地位

  • 新兴但增长迅速:虽仅第 2 届,但已形成较高能见度——2024/2025 年邀请报告与圆桌覆盖从基础研究到安全与科学应用等板块(如 Luke Zettlemoyer、Shirley Ho、Nicholas Carlini 等)。YouTube

  • 论文与社区活跃度:会议采用公开化的 OpenReview 流程,发布接收论文清单;2025 年的接收规模很可观(418篇)。OpenReview

  • 学术定位:与 ACL/EMNLP/NeurIPS/ICLR 等“综合型”大会并行,COLM 更像是“LM 专题旗舰”——把模型本体(训练、对齐、推理、评价、社会影响、系统实现等)作为第一公民来组织议题与审稿;因创办时间短,传统的长期声誉指标与排名体系(例如多年滚动指标)尚在形成之中。会议目前以其专题聚焦度、单轨深度与公开评审而获得关注。COLM

以“AI infra / MLsys ”视角选读COLM的最新论文?

COLM 2025的论文中不少都涉及AI infra / MLsys相关主题,原因可能是:

1.会议定位就把“工程与系统”放在一等公民:COLM 的征稿主题里明确把“工程化大模型(Engineering for large LMs)”、“算力与效率(Compute-efficient LMs)”、“推理/解码算法(Inference algorithms)”列为重点方向,例如分布式训练与推理、不同硬件平台上的优化、量化/剪枝/蒸馏、记忆与样本效率等——这天然与 AI 基础设施、ML 系统重合度极高。同时,COLM 的评审指南强调实证、可复现与技术影响,这与系统论文的证据形态契合(大规模实验、开源工件、可复现实验)。

2.语言建模的“核心科学问题”离不开系统支撑:COLM 把“语言模型”广义化,目标是“理解、改进并批判 LM 技术”本身;而在当下,LM 的可扩展性、效率与可靠性基本都要靠系统层方案(并行训练、解码加速、内存/带宽约束下的架构权衡)来落地,因此系统论文在该会议自然占比不低。

=============Spotlight +Outstanding Paper==============

按照五个部分解释(面对什么问题, AI infra / MLsys的相关性,解决问题的 landscape 与路径, 创新点及对比工作, 研究扩展与实现价值),由于篇幅太长,将分两篇讨论。

Understanding R1-Zero-Like Training: A Critical Perspective

Understanding R1-Zero-Like Training: A Critical Perspective

Zichen Liu*†1,2, Changyu Chen*1,3, Wenjun Li*3, Penghui Qi*1,2,Tianyu Pang1, Chao Du1, Wee Sun Lee2, Min Lin1

1 Sea AI Lab 2 National University of Singapore 3 Singapore Management University

面对什么问题

  • 误归因与可复现性:社区把 R1-Zero 训练中“长推理链 + Aha moment”的出现,普遍归因于“RL 会让模型更会思考”;作者指出其中一大部分来自 GRPO 的优化偏置,非纯粹能力涌现(如下图,这两处归一化会让训练偏向“低方差题”,并纵容错误回答变长,从而出现“奖励不再提升但长度继续增长”的现象。)。

Illustration of the biases in GRPO

  • 实现偏差:很多开源 PPO 实现也进行了“按回复长度归一化”的损失计算,同样会引入长度偏置。

Many open-sourced PPO implementations contain length bias

  • 基础模型与模板错配:部分基座(如 Qwen2.5-Math)在不加模板时反而回答最好,说明存在预训练偏置;而错误的模板会先破坏能力,再靠 RL 重新“修回来”。

Qwen2.5-Math models might be pretrained on concatenated question-answer text,resulting in peak performance when no template is applied

AI infra / MLsys的相关性

  • LLM 后训练(post-training)系统 / RL 优化器正确性:论文核心聚焦 R1-Zero 范式中的 GRPO/PPO 类优化器实现偏置 与“模板—题集覆盖—基础模型”三者的系统交互,属于 MLSys 的训练系统与优化器层(面向 token 效率与训练稳定性)。

  • 工程/效率维度:强调输出长度膨胀的成因及其对token 成本的影响,并提出无偏优化器 Dr. GRPO 提升效率与稳定性(不再奖励“越错越长”)。

解决问题的 landscape 与路径

Landscape(方法图谱)

  • 优化器:GRPO(带组内均值/方差标准化) ⇨ Dr. GRPO(移除 1/|o| 与 1/std(R) 两项,回到无偏 PPO 目标)。

Dr. GRPO

  • 奖励:以规则校验器为主的 outcome-based reward(是否答对)。可不加 KL 正则,节省引用策略与显存/算力。

  • 基座与模板:基座(Qwen / DeepSeek / Llama);模板(R1 模板 / Qwen-Math 模板 / 无模板),它们决定初始策略的问答倾向与探索能力。

Model attributes across three aspects

  • 系统目标:抑制“错误样本越答越长”,提升token 效率,并在低算力下达成 SOTA。本文给出极简 recipe:Qwen2.5-Math-7B + Dr. GRPO + MATH L3–5 + Qwen-Math 模板,8×A100 27 小时即达成 AIME24 43.3%。

Model performance comparison. Oat-Zero-7B is RL-tuned with our minimalist recipe

核心创新点 与典型工作的对比

本文创新

  • 提出无偏优化器 Dr. GRPO:移除 1/|o|(对错样本的长度偏置)与 1/std(R)(题目难度权重偏置),抑制“错误越写越长”,在相近奖励提升下显著降低输出长度。

  • 基座/模板/题集的系统性解耦:证明 Qwen2.5 无模板更优、模板错配会先降后升、简单题集亦能强提升。

  • 低算力极简配方 达到 7B 级 SOTA。

与典型工作的对比

方法(基座)

训练范式

优化器/实现要点

关键设置

AIME24(%)

平均(5项)(%)

Oat-Zero-7B(Qwen2.5-Math-7B)

RL

Dr. GRPO(无偏)

Qwen-Math 模板;MATH L3–5;8×A100≈27h

43.3

51.4

PRIME-Zero-7B

RL

PPO

R1-like 复现

62.7

48.0

SimpleRL-Zero-7B

RL

PPO(实现含长度归一化偏置)

R1-like 复现

26.7

46.6

OpenReasoner-Zero-7B @8k

RL

PPO(实现含长度归一化偏置)

8k 预算

13.3

45.9

R1-Distill-Qwen-7B @8k

SFT蒸馏

蒸馏版 R1;8k 预算

33.3

54.7

Qwen2.5-Math-7B*

无RL(基座)

无模板推理(*为最优模板设定)

0.2

38.2

研究扩展与实现价值

  • 直接工程收益: 省算:在相同或更高正确率下,错误样本更短,token/成本下降(训练与推理均受益)。 训练稳定性:避免“奖励增长停滞但长度继续飙升”的异常动力学,便于早停与自动化调参。

  • 落地改造指南: 修补 PPO/GRPO 框架:把“按回复长度求均值”的实现改为“按固定上限(如 MAX_TOKENS)归一”,即可去偏——见文中 masked_mean 的绿色改法。 模板—题集协同设计:先测无模板/多模板的“回答倾向”,再定题集覆盖;必要时用简单题触发“行为强化”。

  • 可推广性: 适用于代码、科学、长上下文等其他“可校验”任务的 RL(规则或程序化校验器);也可与 process reward 结合。

  • 研究洞见:Aha moment 非纯粹由 RL 诱发:多种基座(含 DeepSeek-V3-Base)在 RL 前已出现自我反思迹象;因此需要更谨慎地解释“能力涌现”。

Hidden in plain sight: VLMs overlook their visual representations  (Outstanding)

Hidden in plain sight: VLMs overlook their visual representations

Stephanie Fu UC Berkeley Tyler Bonnen UC Berkeley

Devin Guillory UC Berkeley Trevor Darrell UC Berkeley

面对什么问题

  • 在“视觉中心”的任务上(如语义/功能对应、低层匹配、深度顺序、3D 物体意识、风格匹配),VLM 的准确率从视觉编码器的“近天花板”跌到接近随机;而且视觉编码器在 VLM 中的强弱排序被改写(如下图, DINOv2 视觉评测最强,但嵌入 VLM 后并不最强)。

Evaluating vision language models (VLMs) alongside their vision encoders reveals a failure to utilize visual information

  • 视觉特征在 projector/LLM 中并未显著退化,瓶颈在 LLM 端不会用图像(如下图);提示词(prompt)微调只能带来边际收益;微调 LLM(相同参数预算下)带来最大增益并减弱“语言先验/盲答分布”。

Comparing standard visual evaluation to VLMs across vision-centric tasks

AI infra / MLsys的相关性

MLSys—多模态系统诊断与能力路由:聚焦 VLM 三段式组件(视觉编码器→投影器→LLM)的信息整合瓶颈、评测协议与训练/微调位点选择(ViT / projector / LLM)的系统级权衡。

解决问题的 landscape 与路径

逻辑可行性

特征是否丢失? projector/LLM 破坏了视觉表征 → 证据否定:中间层视觉探针(probe)仍高分,特征可被读出。应把注意力放在如何让 LLM 用起来。

Visual evaluations for intermediate VLM layers

提示是否关键?对 prompt 极其敏感 → 实验:prefix-tuning(1/5/10 embedding)收益有限且递减,难以弥补鸿沟(如下图,给 VLM 做前缀提示微调(prefix-tuning)几乎没用,而且“多加前缀”收益递减)。

Prompt-tuning evaluation

瓶颈在语言头部:如何逼迫“用图像”?a:优化“注意力-定位”——让跨模态注意力在关键区域/选项 token 上聚焦(如下图, 显示 LLM 微调后在 REF/选项处 attention 明显上升)。b:抑制语言先验——需校准/正则让答案分布贴近 GT。c:任务解构——将视觉判别作为决策前置的可微/可外接工具,减少 LLM 纯语言主导。

Visualizing the difference between attention maps before and after fine-tuning the LLM

现实可行性

优先策略:微调 LLM(LoRA)--》 与微调 ViT/Projector 同参量预算下,LLM 微调提升最大;并显著缩小与视觉上限的差距、降低与 GT(Grounding True) 的 TV 距离(Total variation distance,如下表格)。→ 先做 LLM 端 LoRA。

Total variation distance between VLM predictions and GT answers

次优策略:小步 prompt-tuning--》 只做 1 个 prefix embedding 试水(收益最可能出现),更多 embedding 收益递减。

训练/推理的“视觉读数注入”: 在 VQA 前插入可微或外部读数(如 DPT 深度、ViT patch 相似度、风格 Gram 距离)为“结构化提示/工具调用结果”,减少 LLM 盲猜。

核心创新点与典型工作的对比

本文创新:统一对比“视觉直读 vs. VLM-VQA”,在多类视觉中心任务上证实性能普降与排序颠倒;定位瓶颈在 LLM(非特征退化/非提示敏感);提出以 LLM 端微调/注意力重分配为主的改进方向与诊断协议。

与典型工作的对比:

论文(年份)

目标/场景

关键方法/数据

主要结论/瓶颈观点

与本文问题的关系

代表性创新

BLINK (Fu’24)

视觉感知“速判”转 VQA

语义/功能对应、风格等 MC 评测

多数开源 VLM 看见但不感知

为本文选的多任务来源之一;支持“VLM 难以仅凭视觉解题”

将传统 CV 任务系统化为 VQA 基准

CV-Bench / Cambrian-1 (Tong’24a)

视觉中心多模态评测

深度/距离/计数等 VQA

报告 VLM 排名偏向 CLIP/SigLIP

本文指出:视觉直读下 DINOv2 更强,VLM 评测排序不可靠

全面 VLM 评测套件与开源模型

Prismatic VLMs (Karamcheti’24)

设计空间审视

多背骨 ViT + 统一训练

组件/分辨率/指令调优影响复杂

本文在其模型上做“固定 ViT、只换评测/微调位点”实验

提供可对照的同骨架多设置平台

What matters… (Laurençon’24)

组件重要性解析

不同 backbone/adapter/调参

指出 LLM 可能是瓶颈

与本文“瓶颈在 LLM”一致,相互印证

系统性因素消融与经验法则

InternVL (Chen’24)

规模化多模态

端到端对齐/多图

多图任务可高于随机但仍受限

本文复现:多图输入能提高,但仍无法追上视觉直读

更强对齐与数据管线

LLaVA / LLaVA-Next (Liu’23/’24)

指令微调范式

LLaVA 数据配方/多图

强常识/识别题,但视觉中心题薄弱

本文借其数据/流程搭建对照,并在多图附录比较

视觉—语言指令调优配方的事实标准

研究扩展与实现价值

  • 快速提效路径:在现成 VLM 上,优先 LoRA 微调 LLM(保持 ViT/Projector 冻结)解决“不会用图像”的核心矛盾;相比调 projector/ViT,更划算且稳定。

  • 部署面向:将视觉直读分支(DPT/patch 相似度/Gram 风格)作为外部工具/结构化特征注入提示,显著降低“盲答分布”影响。

  • 注意力/门控层设计:在跨模态注意力添加显式区域/选项门控,让 LLM 在决策 token 上强制读视觉证据。

  • 语言先验校准:在多选题上加入分布正则/温度校准/反事实训练,让有图与盲答分布的 TV 距离最小化。

Interpreting the Linear Structure of Vision-language Model Embedding Spaces

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值