阅读笔记：Improving Complex Reasoning with Dynamic Prompt Corruption-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_56586293/article/details/147189368

ICLR2025

标题：Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach

1. 研究背景与动机

问题背景：

指令调优Prompt Tuning（PT）是一种高效的参数微调方法，通过添加少量可训练的连续提示向量（软提示）来调整大型语言模型（LLM）的行为。

然而，作者发现普通的PT在复杂推理任务（如数学问题求解）中表现不佳，甚至可能降低模型性能。例如，在GSM8K数据集中，某些软提示会引导模型生成错误的推理步骤。

核心问题：

软提示在推理过程中可能产生两种相反的效果：

关键观察：

通过神经元显著性分数分析（Saliency Score），作者发现：

对于浅层注意力

对于深层注意力

图4a表明：浅层信息积累与深层信息流模式变化同时发生的概率远高于未观察到积累的情况，这表明信息积累的发生与深层信息流模式的变化之间存在很强的相关性。

2. 核心方法：动态提示损坏（DPC）

DPC是一种两阶段优化策略，动态调整软提示的影响：

阶段1：动态触发（Dynamic Trigger）

错误推理的特征是推理序列后半部分存在一些受影响的标记。如果受影响标记的比例超过一定比率，则认为可能导致错误推理。因此，我们计算推理过程中受影响标记的比例 R

阶段2：动态损坏（Dynamic Corruption）

选择性掩码：将第j个提示向量的值进行掩码处理，以获得损坏后的软提示tc={v1,v2，mask x vj,..,vn}，并剔除嵌入值中最小的T%(不包括第j个元素，默认T=10，即默认稀疏化10%)。

整体流程（如图5）：

3. 实验验证

数据集与模型：

基线方法：

注意力校准技术(ACT)：是一种无需训练的方法，旨在优化大语言模型(LLMs)内的注意力分布，而无需进行权重微调。
- 它旨在解决注意力汇聚点现象，即某些元素尽管语义相关性有限，但却获得了过高的注意力。
- 通过在推理过程中可视化和分析大语言模型的注意力模式，ACT以输入自适应的方式识别并校准注意力汇聚点。
常规的指令调优

实验结果（表1）：

消融实验（表2）：

4. 关键创新与理论分析

信息流模式发现：
- 通过显著性分析揭示软提示在深浅层的不同作用：
  - 浅层：软提示提供任务背景（类似人类回忆相关知识）。
  - 深层：需转向问题与推理步骤，否则导致错误（如图4）。
动态调整机制：
- 人类认知类比：类似于解题时初期参考笔记，后期需独立推理。
- DPC模拟此过程，抑制后期对“笔记”的依赖。
通用性验证：
- 在逻辑推理（prontoQA）和常识推理（ARC-challenge）任务中，DPC同样有效（表3）。