- 博客(125)
- 收藏
- 关注
原创 CASS总结
开放词表语义分割(OVSS)随着近期视觉-语言模型(VLMs)的发展取得进展,使得模型能够通过多种学习范式对超出预定义类别的目标进行分割。尤其是免训练(training-free)方法,因其可扩展、易部署,能够处理未见数据(这正是 OVSS 的关键目标),而受到关注。然而,一个关键问题仍然存在:当基于任意查询提示词在具有挑战的 OVSS 环境中分割复杂物体时,现有方法缺乏对“物体级上下文(object-level context)”的考虑。
2025-12-20 18:51:27
976
原创 DINO系列
论文探讨:自监督学习是否会让 Vision Transformer(ViT)产生一些相比卷积网络(ConvNet)更独特/更显著的性质。自监督训练的 ViT 特征显式包含语义分割相关信息(场景布局、物体边界),这种性质在监督训练的 ViT和ConvNet中都不那么明显;并且这种信息可以从 ViT最后一层 self-attention中直接读出来(图1)。这些自监督 ViT 特征做k-NN 分类非常强:小 ViT 在 ImageNet 上能到。动量教师(momentum encoder)
2025-12-20 14:14:08
841
原创 计算机视觉·LaVG
作者提出:一种用于开放词汇语义分割(OVSeg)的两阶段方法:(1)无监督发现对象级 mask;(2) 再把文本标签“晚交互”地分配到这些对象上。大量已有方法把 OVSeg 当作像素到文本的分类(pixel-to-text classification),依赖预训练视觉-语言模型的图文对齐能力,但缺乏对象级理解。作者认为:分割本质是视觉任务,“对象”在没有文本先验时也能凭视觉被区分。LaVG 先用迭代 Normalized Cuts覆盖整张图的对象 mask(作者称为),再对每个对象做文本匹配。
2025-12-18 18:23:29
989
原创 ResCLIP
cite_start]尽管像CLIP这样的视觉-语言模型在开放词汇任务中取得了显著成功,但它们的应用目前仅限于图像级任务,并且在密集预测方面仍然存在困难。最近的工作通常将密集预测的这种不足归因于最终块中的自注意力层,并通过将原始的查询-键注意力修改为自相关注意力(例如,查询-查询和键-键注意力)取得了令人称赞的结果。然而,这些方法忽略了捕获丰富空间对应关系的交叉相关注意力(查询-键)的特性。在本文中,我们揭示了CLIP非最终层中自注意力的交叉相关性也表现出定位特性。
2025-12-14 15:35:41
886
原创 CLIPer
提示CLIP的关键在于空间特征表示的改进上。可以利用早期的特征和注意力来改进,而不是依赖最后一层注意力或者其他VFM模型。扩散模型对于局部细节的空间关系表示比较好,可以用于进行语义分割。就是把早期层的注意力图进行平均化处理,替代最后一层的注意力图。最后一层的FFN和残差连接进行移除。作者还加入了一个中间特征融合,不止限于中间注意力图融合扩散模型的注意力图的空间表示能力强,可以用于进一步修正和锐化最终得到的类别向量。作者将扩散模型得到的注意力中多个头拆分出来,进行矩阵乘法,实现跨 head 的注意力融
2025-12-13 21:17:09
413
原创 CLIP Surgery
对比语言–图像预训练模型 CLIP 是一个强大的多模态视觉模型,在零样本和文本引导视觉任务中表现出色。但我们发现它在可解释性上有严重问题:1)CLIP 预测出的相似度热力图更偏向背景而不是前景,这与人类直觉相反;2)可视化结果中在无关位置有大量噪声激活。为了解决这两个问题,作者做了深入分析,给出新的发现和证据,并据此提出:在推理阶段像做“手术”一样修改结构和特征,从而提高可解释性,并提升多个开放词汇任务的性能。CLIP Surgery 对卷积网络和 ViT 都显著提升了解释质量,远超现有方法;
2025-12-13 16:48:24
819
原创 SCLIP
下面按你给的框架,针对论文做“方法部分”深读总结(含关键实验)。引用均来自你提供的PDF。论文指出:CLIP 在图像级对齐很强,但做语义分割这类密集预测时经常定位失败。作者分析认为失败源自自注意力中的位置不对齐(location misalignment)。为此提出一个训练-free的适配方法:把自注意力的“Q·K”打分改成由query-to-query 与 key-to-key 的相似度来决定注意力分数(本质是用 token 间相关性来做 attention)。
2025-12-12 15:26:22
1098
原创 NACLIP
方法摘要 本文提出NACLIP,一种无需训练的开放词表语义分割方法。针对CLIP缺乏局部空间一致性的问题,在最后一层ViT中引入两种改进:1) 使用高斯核强制注意力关注邻近patch;2) 采用key-key相似度代替query-key相似度。实验表明,仅通过前向过程修改就能显著提升分割性能,在8个数据集上达到SOTA。该方法无需额外数据、预训练或参数调优,仅使用冻结的CLIP模型即可实现高质量分割。
2025-12-11 22:54:28
820
原创 CorrCLIP
摘要翻译(意译,便于理解)开放词汇语义分割(OVSS)的目标是在没有预先固定类别集合的情况下,为每个像素赋予语义标签。CLIP 在零样本分类上很强,但因为 patch 之间的相关性“不成体系”,在把图像 patch 对齐到类别 embedding 时表现不好。类间相关性(inter-class correlations)是破坏 CLIP 分割性能的主要原因。利用 SAM 限制 patch 交互的范围,减少类间相关;再用自监督模型计算语义更连贯的相似度,压低类间相关的权重;
2025-12-11 20:32:17
570
原创 ClearCLIP
先给你一版“整篇论文的方法理解 + 复现指南”,尽量按你给的提纲来。大规模视觉-语言预训练模型(VLM),尤其是 CLIP,在各种开放词汇任务上都很成功,但在语义分割等致密预测任务上表现一般,往往会产生噪声很大的分割图、区域错分。本文重新仔细审视了 CLIP 的结构,发现残差连接是导致噪声、降低分割质量的主要来源。通过比较 CLIP 中残差分支和注意力分支在不同预训练模型里的统计特性,作者发现:CLIP 的图文对比学习会强调全局特征方向,牺牲了局部可区分性,导致分割结果很嘈杂。
2025-12-07 16:24:12
1023
原创 ProxyCLIP
ProxyCLIP提出了一种无需训练的开放词汇分割方法,通过将视觉基础模型(VFM)的空间特征关联作为"代理注意力"来增强CLIP的局部特征表示。CLIP虽然具有强大的语义理解和零样本迁移能力,但其全局注意力机制导致局部定位能力较弱;而VFM(如DINO、SAM)虽然能提供空间连贯的局部特征,但语义理解能力不足。ProxyCLIP创新性地利用VFM的特征相似度矩阵替代CLIP原有的注意力机制,重组CLIP的值向量,从而同时继承VFM的局部一致性和CLIP的开放词汇能力。该方法还设计了自适
2025-12-07 15:31:15
991
原创 # Mask2Former
本文介绍了Mask2Former,一种改进的分割模型架构。其核心创新点包括:1)采用多尺度特征金字塔替代固定分辨率特征图;2)引入基于前一层输出的交互掩码机制;3)优化解码器结构顺序,先交叉注意力后自注意力;4)提出共享像素采样策略,显著降低高分辨率掩码计算的内存消耗。这些改进使得模型在保持统一架构处理多种分割任务的同时,提升了训练效率和性能表现。
2025-12-06 15:54:12
213
原创 MaskCLIP+
CLIP 是否仅能做图像级的零样本分类?还是其实已经隐含了局部/像素级的语义信息,可以直接用于语义分割?结论是:CLIP,甚至能成为一种强大的开集伪监督方式。
2025-12-01 21:13:01
307
原创 数据挖掘·IDC-Reduction
的含义,并结合作者的因果推导、公式和例子说明为什么这是反事实公平研究中一个此前被忽视、但极其关键的问题。(如性别、种族)在**获得正向预测(positive prediction)**方面是否存在差异。注意:对于连续标签(如 Law School 的成绩),论文采用。这在现实中非常普遍(如:性别→教育资源→考试成绩→录取)。也就是:真实标签是 0,但模型预测成 1 的比例。即使生成器生成的数据是公平,但这往往是。即 A 影响 X,而 X 再影响 Y。下面我将根据你上传的论文内容(特别是。
2025-12-01 11:46:25
989
原创 计算机视觉·DETR
由于N的数量肯定是大于图像中真实锚框的数量和标签集M,因此作者引入了一个No Object作为新的标签集。,这N个锚框经过FFN分别得到分类结果和锚框坐标。这些query向量首先经过自注意力进行交互。总损失:N个分类损失,M个锚框和GIoU损失。DETR设计了N个可以学习的query。就像NMS一样,作者需要减少锚框的数量。首先通过CNN+1x1卷积得到特征图,,N的数量大于图像中实际存在的数量。,其中N=100,表示查询的数量。得到生成的锚框与真实锚框之间的。,就是一个关系矩阵C。
2025-11-30 17:03:51
306
原创 计算机视觉·ZegFormer
作者对于ZS3和GZS3的新定义方式,还是比较有意思简单来说就是把语义分割看成两个部分先对图像进行分块,例如RR表示多个区域,这些区域不重叠然后找到一种标签映射关系LL,用于将这些区域映射到标签集合。
2025-11-29 23:53:25
723
原创 LLM·参数高效微调 PEFT
本文介绍了三种轻量级微调方法:BitFit、Prompt Tuning和P-Tuning。BitFit仅微调模型线性层的偏置参数,显著减少计算资源;Prompt Tuning通过添加可训练的虚拟token进行微调,分为Soft(随机初始化)和Hard(指定文本)两种方式;P-Tuning引入MLP或LSTM作为Prompt Encoder,提升收敛速度。这些方法均能有效降低训练成本,适用于不同场景的模型微调需求。
2025-11-26 11:39:41
246
原创 LLM·transformers库
最常见的用法:,直接将原始输入处理为token后的id,还包括掩码和一些其他东西。注意:这个参数表示返回pytorch类型的tensor,最好勾选上,不然就会返回一个列表!其他用法:加载时划分数据集查看数据集DatasetDict支持使用键的方式查询对应的数据,类似pandas:包括title和content的列表数据集手动划分调用函数指定划分。选择数据作为新数据集选择特定数据作为新数据集过滤数据: 用于清洗异常值或者缺失值数据映射:将数据打包为映射
2025-11-18 10:53:19
343
原创 计算机视觉·LDVC
本文提出LDVC方法,针对零样本语义分割任务中的不可见类别过拟合问题。通过视觉-语言提示机制,在视觉和文本编码器中引入提示token,其中视觉提示采用VPT初始化,语言提示则基于手工设计的提示语嵌入。此外,沿用ZegCLIP的文本适配器设计,并将视觉共识解码器与路由注意力机制结合,重点关注图像中相关性强的区域。实验表明,该方法在归纳设置下对可见类和不可见类均有提升,但在转导设置下效果有限。消融实验验证了交叉注意力图的有效性,展示了模型聚焦相关区域的能力。
2025-11-05 14:46:39
362
原创 计算机视觉·TagCLIP
本文提出TagCLIP方法,通过引入额外token $t_C$和可信token学习器改进CLIP模型。该方法使用两个模块$M_A$和$M_R$,其中$M_R$专门用于降低对不可见类的预测概率(可见类标记为1,不可见类为0),采用Dice损失函数进行训练。在推理阶段,系统会调整对可见类和不可见类的预测概率分布。消融实验验证了各模块的有效性,展示了该方法在细粒度分类任务上的性能提升。
2025-11-05 13:31:27
241
原创 LLM基础·Huggingface使用教程
本文介绍了Hugging Face工具中pipeline和tokenizer的基本使用方法。在pipeline部分,讲解了如何加载预训练模型进行文本分类任务,包括直接加载模型目录或分别加载模型和分词器的方法。tokenizer部分详细说明了encode、decode、encode_plus等核心功能,以及如何控制填充、截断等参数设置。Model部分对比了AutoModel、AutoConfig和AutoModelForSequenceClassification的区别,展示了如何获取模型的不同输出形式。全文
2025-11-03 20:10:25
288
原创 论文精读·PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization
本文提出PandaLM,一个自动化、开源的评估模型,用于优化大语言模型指令微调的超参数设置。PandaLM通过构建高质量人工标注测试集和自蒸馏方法训练,能自动评估模型回答的主观质量(如清晰性、简洁性),其70B版本表现超越GPT-4。实验表明,使用PandaLM优化的超参数可显著提升模型性能,同时避免了人工评估的高成本与隐私风险。该研究为LLM自动评测提供了可靠、可复现的解决方案。
2025-10-16 14:53:38
408
原创 论文精读·JUDGELM: FINE-TUNED LARGE LANGUAGE MODELS ARE SCALABLE JUDGES
在开放式场景中评估大型语言模型(llm)是具有挑战性的,因为现有的基准和度量不能全面地度量它们。为了解决这个问题,我们建议将法学硕士作为可扩展的法官(JudgeLM)进行微调,以便在开放式基准测试中高效地评估法学硕士。我们首先提出了一个全面、大规模、高质量的数据集,其中包含任务种子、llms生成的答案和gpt -4生成的判断,用于微调高性能裁判,以及评估裁判的新基准。我们对JudgeLM进行了7B、13B、33B等不同尺度的参数训练,并对其能力和行为进行了系统的分析。
2025-10-15 11:09:59
807
原创 AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation
AlignZeg: 缓解零样本语义分割中的目标偏差问题 本文针对零样本语义分割中存在的目标偏差问题(即模型过度优化已见类而忽视未见类性能)提出了AlignZeg框架。该框架通过三个关键创新点实现改进:(1)互精炼的掩码提议提取模块(MRPE),通过双向交互机制生成高质量类无关掩码;(2)泛化增强的提议分类模块(GEPC),采用特征扩展和多背景原型策略扩展特征空间;(3)预测偏差校正模块(PBC),在推理阶段检测并修正偏向已见类的预测。实验结果表明,AlignZeg在多个基准数据集上平均提升hIoU达3.8%
2025-10-15 10:06:25
575
原创 论文精读·TagCLIP: Improving Discrimination Ability of Zero-Shot Semantic Segmentation
本文提出TagCLIP方法,通过引入置信token提升零样本语义分割的判别能力。现有CLIP方法在未见类识别上存在混淆问题,作者将优化过程分解为并行的语义匹配和可靠性判断。提出的置信token能区分已知和未知类别,通过加权调节预测结果。在PASCAL VOC和COCO-Stuff数据集上实验显示,TagCLIP将未见类IoU分别提升7.4%和1.7%,且计算开销可忽略。该方法简化了训练逻辑,仅需添加二进制标注的置信掩码损失,有效缓解了模型对已见类的过拟合问题。
2025-10-13 21:31:58
586
原创 论文精读·Does Context Matter? CONTEXTUALJUDGEBENCH for Evaluating LLM-based Judges in Contextual Settin
摘要: 研究提出ContextualJudgeBench基准,系统评估大模型在“有上下文输入”任务中的评审能力。该基准包含2000对覆盖拒答性、忠实性等4类标准的样本,通过人工标注与LLM扰动构建。研究发现,现有评审模型在上下文评估中表现有限(最优模型准确率仅55.3%),并存在位置偏差与推理缺陷。创新性提出分层评估框架(拒答→忠实性→完整性→简洁性),揭示了模型在复杂上下文任务中的评估挑战,为未来研究提供了重要基准与分析维度。
2025-10-12 16:55:48
767
原创 计算机基础·数据库系统原理
本文介绍了E-R关系图的基本概念和表示方法。E-R图由实体、属性和关系组成,其中实体用方框表示,属性用椭圆形,关系用菱形。文章详细说明了实体集的表格形式、三种基本关系类型(一对一、多对多、多对一)的表示方法及其常见错误。此外,还介绍了键的定义(超键、候选键)、参与约束(单/双横线)以及弱实体集的表示方法(双线方框)。文中通过多个图示直观展示了E-R图的各种元素和约束条件,为理解数据库设计中的实体关系建模提供了基础指导。
2025-10-11 20:54:57
289
原创 论文精读·Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge
本文提出CCE框架,通过引入多样化“群众响应”来增强LLM自动评估的全面性。该方法让模型与多个参考响应比较,筛选批评性判断作为上下文,显著提升评估的可靠性和细节覆盖度。实验表明,CCE在5个基准上平均提升6.7%准确率,并成功应用于模型蒸馏和微调场景。该框架模仿人类对比反思机制,使自动评估更接近人工判断水平。
2025-10-05 18:14:01
640
原创 论文精读·The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Huma
本文提出了一种基于统计学的LLM评审替代人类评估者的测试方法(alt-test)。通过计算LLM与人类评估者相对于其他评估者的一致性分数(S),定义优势分数并进行假设检验,当胜率超过0.5时认为LLM可以替代人类评审。该方法适用于分类、回归和生成任务,创新性地解决了"LLM评审何时能取代人类"这一核心问题,为评估LLM作为评审者提供了统计依据。实验证明该方法能有效比较LLM与人类评审的优劣。
2025-09-26 16:26:37
323
原创 论文精读·Generative Judge for Evaluating Alignment
本文提出了一种生成式评估模型AUTO-J的构建方法。首先手动定义58种评估场景,并从4个数据集中收集人类偏好的模型输出数据,统一格式为查询、两个输出和人类偏好。接着使用GPT-4生成评判数据,包括成对比较和单一问答两种方式,并设计了标准化输出格式。研究发现直接使用系统提示词会损害模型性能,因此采用分而治之策略,将带提示词和不带提示词的结果融合,并通过上下文蒸馏让模型隐式学习评估标准。最终构建了一个包含丰富场景和评判标准的数据集,用于训练自动评估模型。
2025-09-23 11:44:06
302
原创 论文精读·An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Model is not a Gener
该研究揭示了微调LLM作为评估模型的局限性。实证研究表明,经过微调的LLM(如LLaMA2-7B)在泛化能力上显著弱于GPT-4,具体表现为:1)仅在特定训练计划上表现良好,跨领域评估准确率下降;2)易被表面质量好的差样本误导;3)丧失细粒度评估能力;4)无法受益于提示词工程策略。实验发现微调后的LLM输出高度相似,本质上退化为特定领域分类器,存在严重过拟合问题。研究结论表明,微调LLM不能替代GPT-4作为通用评估工具。
2025-09-22 19:43:46
307
原创 论文精读·Is LLM an Overconfident Judge? Unveiling the Capabilities of LLMs in Detecting Offensive Langu
该研究探讨了大型语言模型(LLM)在检测冒犯性语言时对注释不一致样本的处理能力。研究发现,当人类评审出现分歧时,LLM的决策会受到影响。作者提出了评估方法,分析不同不一致程度样本对LLM的影响,并研究了如何解决这类样本。实验考察了LLM在二分类任务中的表现,发现其自信度与样本一致性程度相关。此外,研究还探讨了不一致样本对few-shot学习和指令微调的影响,为改进LLM在模糊样本上的表现提供了见解。
2025-09-22 15:46:57
317
原创 论文精读·YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering
本文提出YESciEval框架,针对科学问答评估领域缺乏鲁棒性基准的问题,构建了一个包含良性问答和对抗性问答的新数据集。通过基于两个已有数据集筛选1对N的合格样本,并针对9个指标设计不同强度的对抗扰动(从轻微到极端),以评估LLM对不同质量文本的敏感度。研究采用3方面9指标评估体系,利用4个LLM生成答案并由4个LLM进行评审。创新性地提出结合监督微调(仅良性数据)和CPO对齐技术(良性+对抗数据)的方法,有效缓解了LLM评估中的乐观偏差问题,提升了科学问答评估的鲁棒性。
2025-09-21 16:45:00
286
原创 论文精读·大模型评审(LLM-as-a-Judge)
摘要:大模型评审(LLM-as-a-Judge)是一种利用大语言模型进行自动化评分和评价的技术。其核心流程包括输入设计、模型选择和后处理,通过优化提示、微调模型和标准化输出来提升性能。评估指标关注模型输出与人类标注的一致性,包括分类准确率、偏差检测和对抗鲁棒性。研究还提出了元评估框架,分析不同优化策略对模型能力的有效性。该技术可应用于文本生成、问答系统等多个领域,但需解决输出格式混乱和潜在偏见等问题。
2025-09-21 10:11:28
564
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅