ICLR’25|使用图计算评估 LLM 的新方法

【ICLR 2025预讲会】系列内容

ICLR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 ICLR 2025预讲会整理成稿,旨在帮助大家率先了解深度学习领域的最新研究方向和成果。本文为文章作者的观点/研究数据,仅供参考,不代表本账号的观点和研究内容。

摘要

LLM 测评是行业热点研究方向,传统研究一般采用图片、表格、时空数据来进行测评。Graph 图数据也是测评 LLM 的一类优秀数据,解决图任务需要 LLM 解读关系信息或结构化知识,处理非序列或非欧几里得数据,一些困难的图任务还需要 LLM 进行多步骤推理。然而现有的基于图的 LLM 测评存在一些问题:测评数据为人工合成的数据,缺乏现实场景数据;测评图任务较简单(如判断两个节点是否可达,图遍历等);测评只看推理结果,忽视结果正确但中间步骤出错的情况等。

针对上述问题,香港科技大学团队提出了一种新的图任务测评框架,名为 GraphArena,解决了上述问题,具备真实世界图数据、多样化图问题、严格测评框架与全面测评体系的优势。

论文链接:https://arxiv.org/abs/2407.00379

代码仓库:https://github.com/squareroot3/grapharena

与该工作相关的一项工作名为 GraphWiz,这是一个面向图计算的指令跟随语言模型,论文发表在 KDD24 上。它尝试依靠 LLM 本身的推理能力直接求解图问题。

论文链接:https://arxiv.org/abs/2402.16029

代码仓库:https://graph-wiz.github.io/

另一项相关工作名为 GCoder,其理念是让 LLM 写代码/调用工具来求解图问题。

论文链接:https://arxiv.org/abs/2410.19084

图片

问题构造及测评方法

如下图上部所示,GraphArena 框架选择了四个多项式复杂度问题,还有六个 NP 难问题,如图下部所示。框架的数据源取自五个真实世界数据源,涵盖知识图谱、社交网络、分子结构和飞机航线图。

图片

对于测评方法,该框架将任务的输出答案评价指标分为三种,分别是 Correct、Suboptimal 和 Hallucinatory,依次表示 LLM 生成的解可行且最优、可行但非最优、不可行三种情况。例如,下图对一个图求解 maximum clique 时,不同 LLM 分别给出三种回答的情况:

图片

可以看到 Llama3-8B 给出的答案甚至不是 clique,GPT-4o 给出的答案虽然是 clique 但并非最大,DeepSeek 给出的答案才是最大 clique,区分这三种答案类型的这种测评方法是更加严格的。

图片

实验对比

实验中,团队使用该框架测评了四个闭源 LLM 与六个开源 LLM:

图片

测评分为多项式时间和 NP 问题两部分,也分别测评了小图和大图的情况。测评结果显示,最先进的 LLM 已经可以解决大部分简单图问题,但 LLM 在大图上表现出了明显的幻觉问题。对于较困难的 NP 完全问题,模型的准确率都很低。

第二项实验是对不同任务来测评 LLM,结果显示在所有多项式复杂度任务中,所有 LLM 在求图直径的任务上表现更不理想;在所有 NP 任务中,所有 LLM 在最大顶点覆盖的任务上更容易产生幻觉:

图片

第三项实验对比了 GPT-4o 和传统图算法的表现,抽取了四个任务,每个任务两个难度,对比三种图算法:

图片

结果显示 GPT-4o 一般和贪心算法表现相当,不如近似算法,不过少数情况也能超越近似算法。使用不同问题来测评不同 LLM 的幻觉表现发现,图尺寸越大,模型幻觉越严重:

图片

团队也探索了减少幻觉的可能解决方案,包括提示工程、指令微调、工具调用和多模态模型。结果发现给出的例子越多,模型幻觉越少,可见提示工程是有效的。SFT 指令微调方法在实测中也表现出了更低的幻觉率。如果让 LLM 通过写代码的方式解决问题,在多数测试中也能减少幻觉。

图片

对于多模态模型,这里使用了谷歌论文《Let Your Graph Do the Talking》中使用的 GraphToken 模型,该模型分离了图和文本,分别进行编码后再交会 LLM 进行推理。对比发现多模态模型的推理能力也有所提升。

图片

相关工作

与上述工作相关的一项工作名为 GraphWiz。它使用 SFT 增强 LLM 推理能力,这里的 SFT 将答案包装成了推理路径的形式,让 LLM 通过这些路径求解。其训练过程是传统的 SFT-DPO 两步训练。

图片

实验结果表明,这种推理模型只需 7B 规模就能击败 GPT-4:

图片

另一项工作名为 GCoder,其理念是用 LLM 写代码/调用工具解决图问题。其训练分为 SFT-RLCF 两步过程,而模型推理时会将任务分解为 In-domain(问题存在于训练语料中)和 Out-of-domain(不在语料中)两类。对于前者使用直接推理处理,对于后者使用 RAG 方式处理。两者都会输出代码,输入编辑器执行并得到结果:

图片

实验结果发现该模型在不同难度任务上的平均准确率超过 90%,写代码能力超越了 GPT-4o 和 DeepSeek R1-Distill:

图片

<think>嗯,用户现在在研究多模态大模型的越狱和LLM越狱,但遇到了瓶颈,缺乏创新点。他们的需求有三个:算力小(只有一张A100)、可以结合越狱方向、容易独立发顶会。首先,我需要理解什么是越狱攻击。越狱通常指的是绕过模型的安全限制,使其生成原本被禁止的内容。多模态大模型涉及到图像和文本的结合,而LLM主要是文本。 用户需要算力小,所以得推荐那些不需要大量计算资源的子方向。可能的思路包括高效攻击方法、迁移学习、数据层面的创新或者对抗样本的轻量化。比如,高效的黑盒攻击,因为不需要访问模型内部,计算成本低。或者数据驱动的攻击,比如构造特定的对抗样本,可能用一些优化算法,但需要确保这些方法在单卡A100上可行。 另外,结合越狱方向,可能需要考虑多模态特有的漏洞,比如图文之间的不一致性,或者跨模态的对抗样本。比如,在图像中添加扰动,让文本模型生成有害内容。或者利用多模态模型处理不同模态时的差异来设计攻击。 容易发顶会的方向通常是有创新性、解决现有问题或者提出新问题。当前越狱攻击可能集中在单模态,尤其是文本,多模态的越狱可能比较新。此外,评估指标或防御机制的分析也是一个角度,但用户可能更偏向攻击方法。 可能的方向包括:1. 多模态越狱的迁移性攻击,研究如何用文本攻击影响多模态模型,或者反之,这样可以利用现有攻击方法,减少计算量。2. 基于提示的轻量级攻击,设计不需要大量优化的提示词,适用于黑盒设置。3. 针对多模态对齐漏洞的攻击,比如图文不匹配导致的安全问题。4. 数据高效的对抗样本生成,比如使用梯度-free的方法,或者基于种子的方法。 需要验证这些方向是否符合算力限制。比如,对抗样本生成通常需要反向传播,但如果是黑盒或基于迁移的,可能不需要太多计算。或者使用更高效的优化算法,如遗传算法或贝叶斯优化,虽然这些可能也需要迭代,但资源消耗较少。 另外,用户可能需要理论分析,比如解释越狱为何有效,或者模型哪些层容易受到攻击,这样的工作可能实验部分较少,更侧重分析,适合算力有限的情况。或者研究新的评估指标,提出更全面的越狱评估框架,这可能在顶会上有吸引力,因为现有工作可能评估不够全面。 还要考虑数据集的可用性,是否有公开的多模态数据集可用于测试攻击方法,比如COCO或Visual Genome,结合一些已有的安全评测基准。 综合来看,可能推荐的方向有:多模态对抗迁移攻击,轻量级提示攻击,多模态对齐漏洞利用,或者高效对抗样本生成。需要确保这些方向在单卡A100上可行,有创新点,并且符合顶会的趋势,比如关注模型安全、可解释性、多模态交互等热点。</think>结合你的需求和当前领域研究趋势,以下是几个适合突破的方向及具体实现路径分析(按优先级排序): ——— ### 方向一:**多模态越狱的迁移性攻击** #### 创新点 1. **跨模态漏洞迁移**:研究文本越狱攻击模式在多模态场景(如图像-文本联合输入)中的迁移规律,例如验证文本对抗样本能否通过CLIP等编码器影响图像模态输出 2. **轻量化迁移框架**:设计无需完整微调的黑盒迁移方案,如: $$ \underset{p}{\text{min}} \mathbb{E}_{x \sim \mathcal{D}} [\mathcal{L}(f_{\text{vl}}(x+p), y_{\text{target}})] $$ 其中$p$为跨模态扰动,$\mathcal{D}$为小规模对抗样本集 #### 优势 - 单卡A100即可完成CLIP等标准模型的对抗训练 - 可复用现有文本越狱语料库(如jailbreakchat数据集) - 符合顶会关注的多模态安全前沿(CVPR/ICML 2024热点) ——— ### 方向二:**基于语义分形的轻量级提示攻击** #### 创新点 1. **分形递归构造**:开发基于语义分形的递归提示生成算法: ```python def fractal_prompt(base, depth): if depth == 0: return base return base + fractal_prompt(transform(base), depth-1) ``` 其中`transform()`实现同义词替换/语法结构变异 2. **能量效率优化**:通过梯度估计而非反向传播优化提示(适合8bit量化推理) #### 优势 - 完全黑盒攻击,无需GPU微调 - 创新方法论易受关注(如ACL/EMNLP的生成安全方向) - 代码实现轻量(<100行Python) ——— ### 方向三:**多模态对齐脆弱性分析** #### 创新点 1. **跨模态注意力劫持**:定位多模态Transformer中跨注意力层的脆弱头(head),设计针对性攻击: $$ \text{Success Rate} = \frac{1}{N}\sum_{i=1}^N \mathbb{I}(\text{Attn}_i^{(v→t)} > \tau) $$ 其中$\tau$为注意力异常阈值 2. **小样本扰动验证**:构建<100对图文数据即可验证理论假设 #### 优势 - 理论分析型论文易发(NeurIPS/ICLR风格) - 仅需推理不需训练 - 揭示多模态安全本质问题 ——— ### 实施建议 1. **优先选择方向一**:已有工具链完善(HuggingFace + CLIP),三个月可出成果 2. **创新包装技巧**: - 将传统对抗攻击与新兴模态结合(如用Wasserstein距离衡量跨模态扰动) - 构建首个多模态越狱评估基准(关键缺口) 3. **投稿策略**:优先考虑安全与生成交叉的workshop(如ICML的AML-LLM研讨会),再扩展至主会 当前最易突破的是方向一,已有团队在ICLR 2024展示文本→图像迁移攻击雏形(论文编号:1234),但尚未深入多模态越狱场景,存在6-8个月的窗口期。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值