论文阅读_鑫照不萱的博客-优快云博客

论文阅读

更新中

文章平均质量分 87

OOD，多模态前沿论文阅读记录

文章数：26 文章阅读量：4506 文章收藏量：64

作者: 鑫照不萱

这个作者很懒，什么都没留下…

展开

Self-Calibrated Tuning of Vision-Language Models for Out-of-Distribution Detection

NegPrompt：利用消极的prompt来探究开放世界的OOD类别检测，具体为了获取负类别，他的做法是对于一个ID数据集，当前这个样本有自己的正类别，从这个ID的类别中选一小部分的子集类作为负类别，然后就这样得到了neg prompt，也就是从ID的类别中选择一部分作为OOD类别，然后直接构建negative的prompt学习这种OOD，所以他才说他们是开放词汇的，因为选择类别就是很开放的选的，但是我觉得这个有点随便了，不是很好说，也没仔细看。代表的是ID样本的局部i的特征。

原创 2025-05-04 16:48:41 · 22 阅读 · 0 评论
AdaNeg: Adaptive Negative Proxy Guided OOD Detection with Vision-Language Models

我的思考：感觉这个图像模态的特征的考虑和之前的CSP不同的是之前的CSP是ID的图像特征，而这篇利用的是对每个预测类别的测试数据的特征，所以实际上并没有和ID的图像特征关系，这样有点奇怪，但是其实也没关系，因为当前的输入也是和这些类别非常典型的测试样本特征之间做的对比，这些缓存的记忆相当于是将这个类别用测试数据中的推形象特征来表征，也就是对于某一个类别来说，除了文本的描述之外，我们还可以用代表性的图片特征来表征，我感觉这个想法很好呀，可以借鉴一下！之间的被认为是有很低的区分置信度的从而不会被选择缓存。

原创 2025-05-02 17:08:11 · 51 阅读 · 0 评论
Conjugated Semantic Pool Improves OOD Detection with Pre-trained Vision-Language Models

和之前最基本一致的就是要加入OOD的类别，语义池要足够大，之前的MCM这种就只是ID的语义，非常限制VLM的能力，所以可以额外加入其他的类别，但是怎么加，有同义词和生僻词等使得不能简单加入，他们发现之前的都是直接将文本类别加入，他们做的处理是整合的类信息，代表的是一种类别的信息中心，本论文CSP（conjugated semantic pool）是由修正之后的超类名称组成的语义池，而不是直接用原始的类名称，这样的好处是每一个簇中心都是不同的类共享相同的特征。

原创 2025-04-28 16:40:37 · 29 阅读 · 0 评论
NEGATIVE LABEL GUIDED OOD DETECTION WITH PRETRAINED VISION-LANGUAGE MODELS

内层的CDF函数的逆函数可以求解得到这个要求下的分布的x的值，然后在求解在另一个分布下这个x的值对应的累积概率分布，就可以得到满足我们的ID的TPR条件下的OOD分布的对应的预测为ID的比例，因为CDF对应的是x<=value，也就是预测是ID的，所以就是假阳性，这是第一行的表达式的解释，第二行的是具体的求解，可以推导得到。这篇论文也是基于CLIP通过后处理的方法实现的OOD的检测，但是设计点在于，之前的方法是使用的ID的类别，这篇工作是通过添加一些在语义上非常不同于ID的类别的外分布类来做的OOD检测。

原创 2025-04-25 18:48:33 · 182 阅读 · 0 评论
Vision-Language Dual-Pattern Matching for Out-of-Distribution Detection

所以实际上图像级别的特征对齐不是采用的和文本一样的处理方式，计算相似度，而是先做图像和ID文本之间的对齐计算，也就是这个图像对于所有的类别文本的相似度分布，然后去和各个类别统计的ID图像和类别文本的相似度统计分布做KL散度计算，目的是为了计算这个样本对于类别文本的相似度分布和ID样本对于类别样本的相似度分布一致，来实现图像之间的间接对齐，我们从中找到的最接近的ID类别图像分布对应的类别就是我们期望的他应该最接近的类别。如下面的图2，我们不需要训练的变体是没有虚线框的部分的，也没有任何可学习的参数。

原创 2025-04-24 15:48:54 · 28 阅读 · 0 评论
HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE?

深度越深能提取到更多的特征图，实验发现深度较深的取得的效果更好/对位置信息的预测更好，这可能表明更深层次的特征蕴含了更多的位置信息，这也和传统的视觉特征的认识是类似的，也就是高维的特征更加全局（感觉还是有点类似上面的感受野的意思）上面的图三中的就是我们生成的真实标注，这也是我们的随机性测试的由来，我们设计的gradient 真实标签可以考虑作为一种随机标签，因为我们的输入图像内容和这种真实标签之间是没有任何的位置关系。我们的位置编码模块负责的就是将预测的位置遮罩和真实的我们生成的标注遮罩之间建模关系。

原创 2025-04-21 22:19:37 · 64 阅读 · 0 评论
WEAK-TO-STRONG PREFERENCE OPTIMIZATION: STEALING REWARD FROM WEAK ALIGNED MODEL

SFT（supervised fine-tuning）一般是基础模型微调的方法，但是往往会存在有缺陷，因为它们有时会产生事实上的不准确性，表现出偏见，并表现出其他不良行为等这些问题，如下图，一啊不能的LM的调整，先经过SFT，后来又流行RLHF，一般是通过人的反馈来调整LM，最后一步使用的算法就是PPO，还有一些最近的研究不适用PPO而是使用DPO，PPO作为RL的算法需要一个奖励模型，但是DPO避免了这个奖励模型，直接和人的偏好对齐。本论文的方法不是使用弱模型输出的标签来是实现的强模型的对齐。

原创 2025-04-20 01:35:06 · 20 阅读 · 0 评论
(Almost) Provable Error Bounds Under Distribution Shift via Disagreement Discrepancy

对于上图中的第一种情况h1分类器就可以完美区分source和test，那么对于H散度这种方法就会导致，我们根据前面的H散度的定义，可以发现得到的d的值就是一个常数比如2，那么他最终运用之后得到的误差就是比如说像error<=1这样的，这就是空洞的，没有什么意义。总体上来说的话，就是得到一个更紧的预测，并且是一个保守的估计。，也就是针对一个分类器的，而不是之前的针对是所有的分布的，这很重要因为上面的假设并不是针对所有的分类器都是成立的，而只针对的特定的某一个分类器，不是所有的像之前那种对所有的分布的感觉。

原创 2025-04-19 16:25:48 · 38 阅读 · 0 评论
AETTA: Label-Free Accuracy Estimation for Test-Time Adaptation

这篇论文的核心思想就是将原来的模型的输出和有dropout生成的输出之间做比较，和AGL/ACL类似，都是根据一致性来评估的，但是不同之处是本论文的方法不是使用很多预训练的网络，本论文的策略是利用dropout推理采样，一般在推理阶段dropout都会被取消，这里就是重新利用上，dropout就是中间层的某些输出会被忽略。在这个熵值是Ent(1/K)也就是均匀分布的时候得到的最大的，对应的是没有失败，而当熵值最小的时候所有的batch预测的都是同一个类，对应的适应失败。越大的α会对模型失败做更大的惩罚。

原创 2025-04-14 21:38:26 · 125 阅读 · 0 评论
SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

在最开始的时候，CLIP的head以及整个合并网络的backbone都是可以学习的，但是CLIP的图像编码器作为老师，将知识压缩迁移到这个backbone，所以它是冻结的，但是这样的方法会导致SAM的知识的遗忘，为了解决这个问题，本论文采用了多任务的知识蒸馏，他有两个目标分别是①加速额外的VFM对基础的VFM的高效知识迁移，②要保留基础的VFM的能力和知识。额外的一个可选的阶段是分辨率的适应，因为CLIP和SAM的预训练使用的是完全不同的差距很大的分辨率的图像。类似于交并比，损失就是1-这个比值。

原创 2025-04-13 22:44:18 · 72 阅读 · 0 评论
Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line

TTA不管是否提高了OOD的泛化性都增强了线性的趋势，TTA的初始目的是为了增强OOD的表现，一个人可能会觉得TTA使得ACL更强的原因是他消除了ID和OOD之间的差距，因此所有模型间ID vs OOD的准确率接近于y=x这条线，但是实际上这个解释不能够反映我们的经验发现，因为虽然TTA将分布之间的偏移简化为一种放缩的分布，但是这个放缩的因子幅值可能很大，也就是α<<1但是r>>1，这就会导致很偏离y=x这条线，而且理论分析也是，虽然ID和OOD的差距很大，但是线性关系还在。

原创 2025-04-12 21:31:03 · 36 阅读 · 0 评论
Predicting the Performance of Foundation Models via Agreement-on-the-Line

论文中专门出现了CLIP，因为他对于AGL的方法非常适用，CLIP就是通过添加一个线性探测头来进行的微调（应该是取了CLIP的图像编码器得到推向特征，然后进行线性预测得到结果），最后结果发现CLIP微调之后仍然存在很强的AGL关系，但是这种很强的关系/AGL和ACL更强的一致性要在上面的随即策略中的参数随机化的条件下，但是对于数据集的顺序和下采样，实际上要弱一点。一种基础模型要得到很多不同的模型，作者采取的是不同的随机策略，主要是三种：①模型的参数初始化不同；= 正确预测的词数 / 预测答案的总词数；

原创 2025-04-11 18:34:08 · 35 阅读 · 0 评论
Improving robustness to corruptions with multiplicative weight perturbations

所以对于这种参数可以自由放缩的网络，这样僵硬的扰动就不合适，无法适应参数的尺度变化，可能会错误地优化“伪尖锐”区域（例如因参数放大导致的虚假尖锐性），也就是他的梯度求解会被放缩的系数所干扰，更详细一点，比如系数被放大了K倍，然后求解的梯度实际上会缩小K倍（因为W‘=KW，对K的导数就是W’的1/k），在SAM的方法里面上下会抵消掉这个K，但是实际上的参数被放大了K被，但是这个扰动的空间没有随着这个变化！注意看这里的扰动的设置，实际上就是限制了他们的大小要ρ的球体范围内，并且方向是梯度的方向。

原创 2025-04-07 00:13:26 · 27 阅读 · 0 评论
Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources

之前的方法都是基于所有的数据都是有标注的，最简单的就是通过枚举所有可能的组合，但是这样的开销很大，而且现实中实际上数据集不是所有的都有标注的，所以本论文就研究如何基于数据集只有一部分有标注，在限制一定的开销下找出最佳的训练数据集。实际上这里的证明并不难，就是三个数据分布，然后消除掉里面的C参数，求解出a就可以了，关键是为什么这里可以直接使用，我想是因为他们都是同一个大数据集的分布，所以上面不好用是因为不同的数据分布的质量不同，而这里保证了这一点所以就可以。后面就是实验部分了，此处不讲，只记录上面的方法。

原创 2025-04-06 02:17:35 · 20 阅读 · 0 评论
Characterizing Out-of-Distribution Error via Optimal Transport

是预测的置信度向量的分布，之所以写的这么绕应该是因为作者想要从一个全局的角度，将x的空间转换到c的空间，而c的空间是一个单位球体里面的一点，这里的单位球是作者的一种几何抽象，如下图，因为所有的概率分布的和为1，所以抽象为一个单位球体了吧，但是这个对于理解有很大帮助，后面会提到。为最优传输COT开销设置一个阈值t，这样的设计的好处是，我觉得这个点写的挺好的，就是因为实际上COT估计误差也是通过两步，第一步是计算所有样本的单独的传输开销，第二步是返回这些所有的单独的传输的误差估计的平均值。没有定义误差的上界；

原创 2025-03-31 17:45:57 · 26 阅读 · 0 评论
Predicting with Confidence on Unseen Distributions

之后做预测准确率的时候，这里我们首先定义相关的符号，R()代表回归的模型，我们可以得到真实的预测的准确率误差，然后就是我们首先要校准得到回归器，作者通过训练回归器的预测误差的均方误差最小化得到最终的回归器。论文指出AutoEval对于自然图像的偏移的表现不好，而DoC能够同时编码base分布和之前未见过目标分布之间的不管是生成的还是自然的分布差异信息。这就是我在前面说的，其实和AutoEval的不同就在于使用的指标不同，这里使用的度量分布差异的指标是DoC。论文实际上这个DoE的表现没有DoC的好。

原创 2025-03-29 18:02:03 · 38 阅读 · 0 评论
What Does Rotation Prediction Tell Us about Classifier Accuracy under Varying Testing Environments?

论文里面的解释是因为是同时训练的，他们使用的是相同的backbone以及一样的特征，所以如果因为环境变化/OOD造成的backbone提取的特征的不适合于分类的预测，那么对于旋转角度的预测表现也会同时受到削弱，这可能是他们之间的表现呈现正向的相关性趋势的原因吧。数据构建，旋转的角度选择有{0， 90，180，270}，可以理解为一个四分类的任务。最终网络的损失由两个部分组成，一个就是分类的损失另一个就是预测旋转角度的损失，相当于这里要做多个任务，一个是要去预测分类，另外一个就是要去预测图片的旋转角度。

原创 2025-03-28 17:49:36 · 27 阅读 · 0 评论
Are Labels Always Necessary for Classifier Accuracy Evaluation?

②数据集之间的相似度度量，MMD和FD score可以作为度量的指标，但是实际上分布之间的相似度度量本身也是一个有挑战的任务，所以也可以不选择使用FD score，也有一定的其他探索空间。度量数据分布的差异首先考虑数据分布的特征，这篇论文的数据分布特征的表征是通过图像特征的一阶和二阶导数表达的，数据分布的差异度量一般是Fre ́chet Distance (FD) [12] or maximum mean discrepancy (MMD)。是预测的结果，L是损失函数，A就是得到的回归模型。

原创 2025-03-26 21:27:08 · 32 阅读 · 0 评论
Accuracy on the Curve: On the Nonlinear Correlation of ML Performance Between Data Subpopulations

基于之前的工作，OOD和ID的performance呈线性的关系，然而这篇论文发现了对于分布的不同的子群来说他们之间呈现的往往是“月牙形”的非线性关系，而且和受用的模型，训练的epoch，超参数，预训练还是scratch等都没有关系，呈现的仍然是月牙的非线性关系；，我们知道TPR作为横轴TNR作为纵轴形成的曲线就是ROC曲线，而一般他都是非线性的，所以很粗糙的证明了一下这个准确率的差值是非线性的依据。这个处理的目的是比如说本论文中得到的一致性度量，它的范围太过于集中，不容易看到线性关系，

原创 2025-03-23 23:45:31 · 30 阅读 · 0 评论
MATHVISTA: EVALUATING MATHEMATICAL REASONING OF FOUNDATION MODELS IN VISUAL CONTEXTS

指出现有的哪怕是前沿的LLM/LMM存在的一个问题就是，对于图像的数理分析很差，而且就这个方向来说目前还没有被系统的度量过，而度量的基础就是需要benchmark，为了加快在视觉上的数理推断的发展以及去评价现有的LLM/LMM对于严谨的推理工作的能力和进展，作者的初衷其实就是发现了问题，作为研究的基础工作开始，提出一个benchmark来为后续的工作奠定基础。2.2.3.最终的表现的最好的是GPT-4V模型，这里我只是为了记录一个结论。

原创 2025-03-23 16:43:55 · 214 阅读 · 0 评论
Memorization Through the Lens of Curvature of Loss Function Around Samples

（这里有一个细节就是之前也有和他们类似的研究，只是方法不一样，之前的方法虽然也用了曲率，是单一对抗方向的，但是本论文的方法是在所有的训练过程中，而且利用了随机的Rademacher向量更稳定，后面也专门枪带哦了这个方法必须是在所有的训练epoch来平均，这样才更稳定，不然也会效果很差，这里的效果差以及之前方法失败的metric都是和FZ score的cosine similarity）这篇论文发现损失函数的曲线的曲率可以作为模型对于数据记忆的一个度量，而且可以用于检测训练集中存在的错误/矛盾标注的数据。

原创 2025-03-23 18:27:21 · 34 阅读 · 0 评论
NTK：neural tangent kernel 神经切线核

在读“Predicting Out-of-Distribution Error with the Projection Norm”这篇论文的时候发现的这个，还是挺难的，大概学了一下，主要是看了一个国外的老师讲解的，才看懂。

原创 2025-03-19 20:59:12 · 857 阅读 · 0 评论
Predicting Out-of-Distribution Error with the Projection Norm

这部分见到那指出这个方法的一个局限性，就是这个方法正如前面介绍的，需要对整个数据进行处理，结果就是甚至考虑了那些很容易区分的ID和OOD的差异，一般projNorm的方法会在这种很容易区分的OOD的预测上表现的不好。黄矩形部分是因为P就是一个投影矩阵，这里最后进行的变换是因为前面的假设有，OOD 和训练集的特征向量要么一样要么正交，而这里的后半部分已经过滤了一样的部分，剩下的本来就是正交于训练数据行空间的，而这个根据前面说的投影矩阵的属性3，本来就在OOD的行空间，所以乘上也不变。

原创 2025-03-19 20:43:02 · 461 阅读 · 0 评论
LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies

本质上，在深度学习中模型要学习的应该是稳定的，本真的知识，但是实际上会存在虚假特征，即使对一个图像经过很强的数据分布的偏移，但是人仍然可以很准确地识别出来这个东西，这是因为人学习的是稳定的本质的特征，二层级结构其实和这个类似，不同的层级之间相邻的层应该具有可迁移的共性特征，而离得较远的层级之间的共性特征应该是混杂的特征，只有学习的是可迁移可转换的特征才会犯更优秀的错，比如将哈士奇预测成阿拉斯加而不是加菲猫，这种犯错的严重性可以用LCA来度量，也就是真正类和预测类的最小公共节点的路径。

原创 2025-03-08 16:56:23 · 890 阅读 · 0 评论
CLIPood: Generalizing CLIP to Out-of-Distributions

首先为什么作者要用这个，正如motivation提到的，原始的预训练的模型有很好的generalization，但是对于下游任务一般要微调，微调的模型更加针对目标数据效果更好，但是代价是generalization的degradation，怎么权重组合能够最佳权衡呢，论文将训练的整个时刻作为T，里面的每一个时间点对应了一个模型，作者希望融合所有时刻的训练训练模型，那融合考虑的权重呢？Beta分布的参数β设置为小于1，根据3.1的β分布的知识知道在0和1的位置值比较大，这就是作者的目的！

原创 2025-02-24 20:53:32 · 790 阅读 · 0 评论
Learning to learn by gradient descent by gradient descent

1. 网络本身的参数就很多，论文也考虑到了这一点，论文的做法是coordinate-wise也就是每一个参数单独执行图2的处理进行优化，但是所有的参数共享一个网络，利用的是相同的LSTM网络权重/参数，但是每个参数都是独立的中间状态。3.实际上这篇论文是2018的NIPS的，但是大部分用的还是传统的方法，一方面是传统的方法本身已经比较好了，而且本身更加稳定，但是这个论文提出的方法还是感觉不稳定，而且很大的一个问题是带来的计算量很大，我觉得是回报相对于成本来说不是很值得吧。参数：如下图1，介绍下参数，

原创 2025-02-23 21:02:45 · 362 阅读 · 0 评论

论文阅读

作者: 鑫照不萱

Self-Calibrated Tuning of Vision-Language Models for Out-of-Distribution Detection

AdaNeg: Adaptive Negative Proxy Guided OOD Detection with Vision-Language Models

Conjugated Semantic Pool Improves OOD Detection with Pre-trained Vision-Language Models

NEGATIVE LABEL GUIDED OOD DETECTION WITH PRETRAINED VISION-LANGUAGE MODELS

Vision-Language Dual-Pattern Matching for Out-of-Distribution Detection

HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE?

WEAK-TO-STRONG PREFERENCE OPTIMIZATION: STEALING REWARD FROM WEAK ALIGNED MODEL

(Almost) Provable Error Bounds Under Distribution Shift via Disagreement Discrepancy

AETTA: Label-Free Accuracy Estimation for Test-Time Adaptation

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line

Predicting the Performance of Foundation Models via Agreement-on-the-Line

Improving robustness to corruptions with multiplicative weight perturbations

Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources

Characterizing Out-of-Distribution Error via Optimal Transport

Predicting with Confidence on Unseen Distributions

What Does Rotation Prediction Tell Us about Classifier Accuracy under Varying Testing Environments?

Are Labels Always Necessary for Classifier Accuracy Evaluation?

Accuracy on the Curve: On the Nonlinear Correlation of ML Performance Between Data Subpopulations

MATHVISTA: EVALUATING MATHEMATICAL REASONING OF FOUNDATION MODELS IN VISUAL CONTEXTS

Memorization Through the Lens of Curvature of Loss Function Around Samples

NTK：neural tangent kernel 神经切线核

Predicting Out-of-Distribution Error with the Projection Norm

LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies

CLIPood: Generalizing CLIP to Out-of-Distributions

Learning to learn by gradient descent by gradient descent