- 博客(150)
- 问答 (1)
- 收藏
- 关注
原创 CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models论文解读
带可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)是提升大型语言模型(Large Language Models, LLMs)推理能力的强效范式。然而,当前的RLVR方法在探索方面往往表现不佳,易导致模型过早收敛和熵崩溃。为应对这一挑战,我们提出了好奇心驱动探索(Curiosity-Driven Exploration, CDE)框架——该框架利用模型自身的内在好奇心来指导探索过程。
2025-11-07 17:54:32
803
原创 Visual-RFT: Visual Reinforcement Fine-Tuning论文解读
本文提出视觉强化微调(Visual-RFT)方法,将强化微调从语言模型扩展到多模态视觉任务。该方法通过任务特定的可验证奖励函数(如检测任务中的IoU奖励)引导模型优化,无需训练额外奖励模型。在细粒度分类、少样本检测等任务中,Visual-RFT仅需少量样本即显著超越监督微调,如在单样本细粒度分类中准确率提升24.3%。这种数据高效的强化学习方法为多模态模型微调提供了新范式。
2025-10-30 15:59:45
1060
原创 Reinforcement Learning for Reasoning in Large Language Models with One Training Example论文解读
单样本性能媲美全量数据:筛选出的单个样本(如π1\pi_1π1)用于1-shot RLVR时,能使Qwen2.5-Math-1.5B模型在MATH500上的性能从36.0%提升至73.6%,在6个数学推理基准上的平均性能从17.6%提升至35.7%,与包含该样本的1209个样本的DeepScaleR子集(DSR-sub)训练效果几乎持平;且这些有效单样本对基础模型而言难度较低,无需训练即可高概率解决。
2025-10-15 20:54:25
1116
原创 AD-DROP:Attribution-Driven Dropout for Robust Language Model Fine-Tuning
本文提出了一种归因驱动的dropout方法(AD-DROP)来缓解预训练语言模型微调时的过拟合问题。研究发现,自注意力位置对防止过拟合的重要性存在差异:丢弃低归因分数的位置会加速过拟合,而丢弃高归因分数位置则能有效减少过拟合。基于此,AD-DROP通过梯度归因识别高重要性注意力位置,并针对性丢弃这些位置,迫使模型学习更多样化的特征表示。该方法采用伪标签计算归因以避免训练-推理不一致,并设计了交叉调优策略来平衡信息保留与正则化效果。实验验证了该方法在多个NLP任务上的有效性,相比传统dropout能显著提升模
2025-09-26 22:42:21
943
原创 on policy的几篇论文记录
近年来,被广泛用于微调大语言模型(LLMs),尤其是在需要复杂推理的任务中,如数学解题、编程、逻辑推理等。通过设计可验证的奖励信号(如答案是否正确),RL 能够引导模型发展出自我修正、回溯搜索等高级推理策略。然而,RL 微调的效果高度依赖于,即所谓的“一个合理的课程应当让模型先学习简单任务,逐步过渡到困难任务,从而提升学习效率和最终性能。因此,。
2025-09-21 18:31:06
1157
原创 AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges 论文解读
图 3展示了从“AI Agent 基础”到“Agentic AI 系统”的六步演化路径;图 2提供了一个五维对比心智图(架构、机制、范围、交互、自主性);整个方法论强调**“从概念到系统、从系统到应用、从应用到挑战与解决方案”**的闭环。AI Agents是自主软件实体,在限定数字环境中执行目标导向任务。能感知输入(文本/图像)能推理上下文能调用工具并执行动作与人类或系统交互,充当“代理”
2025-08-09 11:27:10
795
原创 Random Registers for Cross-Domain Few-Shot Learning论文解读
跨域少样本学习(CDFSL)的提出就是为了将源域(如包含大量自然图像的ImageNet)的通用知识迁移到仅有少量带标签样本的目标域(如医疗数据集),而源域和目标域之间存在巨大的域差距,这使得在源域训练的ViT难以迁移到目标域进行少样本学习。
2025-08-06 17:19:34
709
原创 INTERPRETING CLIP’S IMAGE REPRESENTATION VIA TEXT-BASED DECOMPOSITION论文解读
我们通过分析单个模型组件如何影响最终表示来研究CLIP图像编码器。我们将图像表示分解为各个图像块、模型层和注意力头的总和,并使用CLIP的文本表示来解释这些求和项。在解释注意力头时,我们通过自动寻找跨越其输出空间的文本表示来刻画每个头的角色,这揭示了许多头的特定属性角色(例如位置或形状)。接下来,在解释图像块时,我们发现了CLIP内部涌现的空间定位能力。最后,我们利用这一理解从CLIP中移除虚假特征,并创建了一个强大的零样本图像分割器。
2025-07-02 11:05:10
1047
原创 2026 AAAI 投稿要求
摘要:AAAI-26会议投稿关键信息 重要时间节点: 摘要提交截止:2025年7月25日(UTC-12) 全文提交截止:2025年8月1日(严格不可延期) 会议日期:2026年1月20-27日 核心投稿要求: 双盲评审,全文7页技术内容(美国信纸尺寸) 禁止使用LLM生成内容(允许润色) 需包含可复现性说明清单 关键词选择需突出核心贡献领域 注意事项: 补充材料须在8月4日前匿名提交 作者信息在全文提交后不可更改 违反匿名或抄袭政策将直接拒稿 论文评审分两阶段进行,9月8日发布第一阶段结果 (字数:149)
2025-06-15 17:13:47
23302
3
原创 MMA: Multi-Modal Adapter for Vision-Language Models论文解读
预训练视觉语言模型(VLMs)已成为各种下游任务中迁移学习的优秀基础模型。然而,针对少样本泛化任务对VLMs进行微调时,面临着“判别性—泛化性”困境,即需要保留通用知识,同时对任务特定知识进行微调。如何精确识别这两类表示仍然是一个挑战。在本文中,我们为VLMs提出了一种多模态适配器(MMA),以改善文本和视觉分支表示之间的对齐。MMA将不同分支的特征聚合到一个共享特征空间中,以便梯度可以跨分支传递。
2025-05-26 23:45:26
1333
原创 Vision as LoRA论文解读
我们提出了“视觉即低秩适应”(Vision as LoRA,VoRA),这是一种将大语言模型(LLM)转变为多模态大语言模型(MLLM)的全新范式。与普遍采用的依赖外部视觉模块进行视觉编码的MLLM架构不同,VoRA通过将特定于视觉的低秩适应(LoRA)层直接集成到LLM中,实现了视觉能力的内化。这种设计使得在推理过程中,新增的参数能够无缝地合并到LLM中,消除了结构复杂性,并将计算开销降至最低。此外,VoRA继承了LLM处理灵活上下文的能力,可以处理任意分辨率的输入。
2025-05-01 12:27:47
891
原创 字节 SAIL 论文解读
本文介绍了SAIL,这是一种基于单Transformer的统一多模态大语言模型(MLLM),它在单一架构中集成了原始像素编码和语言解码功能。与现有的依赖预训练视觉Transformer(ViT)的模块化MLLMs不同,SAIL无需单独的视觉编码器,呈现出更为简约的架构设计。。我们系统地比较了SAIL与模块化MLLMs在可扩展性、跨模态信息流模式和视觉表示能力等方面的特性。通过扩展训练数据和模型规模,SAIL取得了与模块化MLLMs相当的性能。
2025-04-22 13:10:37
1326
原创 PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
在大型视觉语言模型(LVLMs)中,图像作为携带丰富信息的输入源。正如"一图胜千言"这一成语所喻,当前LVLMs中表示单幅图像可能需要数百甚至数千个标记(tokens)。这种情况导致了显著的计算成本,且随着输入图像分辨率的提升呈二次方增长,从而严重影响了效率。以往的方法尝试在LVLMs的早期阶段之前或内部减少图像标记的数量,但这些策略不可避免地会导致关键图像信息的丢失。为应对这一挑战,我们通过实证研究发现:在浅层网络中,所有视觉标记对LVLMs都是必要的;而随着网络深度增加,标记冗余度逐步提升。
2025-04-10 17:54:00
867
原创 LLAVA-MINI: EFFICIENT IMAGE AND VIDEO LARGE MULTIMODAL MODELS WITH ONE VISION TOKEN 论文解读
像GPT-4o这样的实时大型多模态模型(LMMs)的出现,引发了人们对高效LMMs的浓厚兴趣。LMM框架通常会将视觉输入编码为视觉令牌(连续表示),并将其与文本指令整合到大语言模型(LLMs)的上下文环境中。在这种情况下,大规模的参数和大量的上下文令牌(主要是视觉令牌)会导致巨大的计算开销。以往提高LMM效率的工作总是聚焦于用较小的模型替换LLM主干,却忽略了令牌数量这一关键问题。在本文中,我们推出了LLaVA-Mini,这是一种高效的大型多模态模型,仅需极少的视觉令牌。
2025-04-01 10:29:33
1330
原创 Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration 论文解读
近期关于加速视觉语言模型的研究表明,即便对视觉信息进行高度压缩,模型仍能在各种视觉语言任务中保持强大的性能。在这项研究中,我们对语言模型中流行的早期视觉令牌剪枝加速方法进行了探究,发现该方法在众多任务中表现出色,并非源于其卓越的视觉信息压缩能力,而是。具体而言,我们揭示了这种加速方法存在的一个核心问题,即图像顶部的大多数令牌被剪掉了。然而,这个问题仅在诸如定位等一小部分任务的性能中有所体现。对于其他评估任务,即便采用有缺陷的剪枝策略,模型仍能保持较高的性能。
2025-03-24 16:24:21
1145
原创 MI-Zero: Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology论文解读
本文旨在通过构建一种新的方法。
2024-12-04 16:56:56
1214
原创 ViLa-MIL论文解读、代码分析
数字病理学是指将传统的玻璃病理切片进行数字化处理,并将其存储、管理和分析的过程。数字化病理切片称为全切片图像(WSI),具有高分辨率、层次化结构和巨大的数据量。
2024-12-01 09:23:54
1515
原创 Disease-informed Adaptation of Vision-Language Models 论文解读
本文背景聚焦于医学影像分析中深度学习模型适配的挑战,特别是数据稀缺和新疾病出现的情况下:医学影像领域的特殊性:预训练视觉-语言模型(Vision-Language Models, VLMs)的潜力和局限:现有方法的局限性:实际临床需求:本文提出了一种 疾病信息驱动的视觉-语言模型适配框架,由两个核心模块组成:疾病信息驱动的上下文提示 (Disease-informed Contextual Prompting, DiCoP) 和 疾病原型学习 (Disease Prototype Learning, DPL
2024-11-28 16:35:39
908
原创 Aligning Medical Images with General Knowledge from Large Language Models 论文解读
这篇论文的背景聚焦于将大型视觉-语言模型(Vision-Language Models, VLMs)应用于医学图像分析领域的挑战与潜力。这篇论文旨在解决将大型视觉-语言模型VLMs应用于医学图像分析领域时面临的以下核心问题:通过提出ViP框架,这篇论文试图在以下几个方面改进现状:ViP (Visual symptom-guided Prompt learning) 是一种新型的医学图像分析框架,通过整合预训练大型语言模型(LLM)和视觉-语言模型(VLM),实现跨领域知识迁移和医学图像分析的性能提升。其核心
2024-11-25 11:49:04
1520
原创 CLIP-Adapter: Better Vision-Language Models with Feature Adapters 论文解读
大规模对比视觉-语言预训练在视觉表示学习方面取得了显著进展。与传统的通过固定一组离散标签训练的视觉系统不同,(Radford et al., 2021) 引入了一种新范式,该范式在开放词汇环境中直接学习将图像与原始文本对齐。在下游任务中,通常需要精心设计的文本提示来进行零样本预测。为避免复杂的提示工程,(Zhou et al., 2021) 提出了上下文优化方法,利用少量样本学习连续向量作为任务特定的提示。在本文中,我们展示了除了提示调优之外,还有一条实现更优视觉-语言模型的替代路径。提示调优是针对文本输入
2024-11-23 22:41:16
2703
原创 Vision-Language Models for Vision Tasks: A Survey 论文解读
总体而言,VLM预训练通过不同的跨模态目标建模视觉-语言关联,例如图像-文本对比学习、掩码跨模态建模、图像到文本生成,以及图像-文本/区域-单词匹配。同时,还探索了各种单模态目标以充分挖掘各自模态的数据潜力,例如针对图像模态的掩码图像建模和针对文本模态的掩码语言建模。从全局层面来看,近期的VLM预训练专注于学习视觉-语言的全局关联,这对于图像级别的识别任务(如图像分类)非常有益。
2024-11-21 22:54:10
2435
原创 Swin-UMamba和SegMamba论文解读
分割后的 3D 图像,其中不同组织或结构被标记为不同的类别。医学图像分割,即将图像中的不同组织或器官进行区分和标记。: Swin-UMamba 的主要任务是进行。: 3D 医学图像分割。
2024-11-10 13:12:06
2646
原创 CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection论文解读和实验复现
CLIP-Driven Universal Model的框架结合了文本和图像信息,以提高医学图像分割和肿瘤检测的准确性和泛化能力。下载好模型权重和数据集,并放置在对应的文件夹下,再运行validation.py即可。我选用的是MSD的task 09 Spleen。同时,获得DSC分数。
2024-11-05 21:01:15
1256
1
原创 A Survey on Multimodal Large Language Models论文解读
指令:指任务的描述。指令调整目的:教导模型更好地理解用户指令并完成要求任务,从而使模型能够通过遵循新指令来泛化到未见任务,提高零样本性能。与相关学习范式比较:与监督式微调和提示工程相比,指令调整学习如何泛化到未见任务,而不是拟合特定任务。对齐调整通常用于需要模型与特定人类偏好对齐的场景,例如减少幻觉(hallucinations)的响应。目前,强化学习与人类反馈(RLHF)和直接偏好优化(DPO)是对齐调整的两种主要技术。
2024-10-13 16:43:51
2122
1
原创 Defining Smart Contract Defects on Ethereum论文解读
智能合约的不可变性:智能合约一旦部署到区块链就无法修改,因此检测和修复缺陷至关重要,以确保合约的健壮性。智能合约与传统软件的差异:与传统的软件(如 Android 应用)相比,智能合约具有独特的特性,例如 gas 系统、去中心化等,这可能导致智能合约包含一些特定的缺陷。
2024-09-27 16:17:22
1749
6
原创 Definition and Detection of Defects in NFT Smart Contracts论文解读、复现
主要组件:负责接收和处理输入的Solidity源代码。用于检测合约中的关键特征,如映射存储、删除操作和外部调用。基于符号执行构建控制流图(CFG),用于分析合约的执行路径。根据预定义的规则和模式识别和报告检测到的缺陷。用户输入Solidity源代码,该代码被编译成EVM字节码和抽象语法树(AST)以供进一步分析。Inputter组件从AST中提取源映射信息,并使用槽映射来存储变量与它们槽ID之间的映射关系。
2024-09-11 20:01:01
1206
原创 中山大学网络空间安全学院夏令营经历
入营了大概60人吧确认参营55+实际到场473个候补,44个优营我处在优营较末尾处,应该是不会来中大了因为中大是根据排名发学硕专硕的,并且中大的专硕和学硕只有学费上有差别(即毕业要求和年限都是一样的)。所以中大的专硕没有吸引人的点,而且根据往年的情况,中大专硕鸽子非常多(印证了它的专硕并不吸引人)。
2024-07-20 13:19:29
2011
3
原创 西安交通大学网络空间安全学院夏令营考核、经历(读论文、复现代码、代码添加模块)
其中:第1篇文献boundaryattack第5篇文献triangleattack补充各种对抗性标准:误分类:扰动后的样本被分类为与原始样本不同的类别。有目标误分类:扰动后的样本被分类为目标类别。顶 k 误分类:扰动后的样本的预测类别不在原始样本的预测类别的前 k 个中。某些置信度分数的阈值。
2024-07-09 08:07:05
1249
1
原创 Triangle Attack: A Query-efficient Decision-based Adversarial Attack (论文解读、代码复现)
深度神经网络的进展: 尽管深度神经网络在各个领域取得了突破性的进展,但其对对抗样本的脆弱性仍然存在。现有研究的不足: 尽管最近的研究将查询次数从数百万减少到数千次,但仍然不足以满足大多数实际应用的需求。现有决策型攻击方法的局限性: 大多数现有的决策型攻击方法在每个迭代步骤都将对抗样本限制在上,并通常采用不同的梯度估计方法进行攻击。
2024-06-29 23:47:02
1173
原创 Rethinking White-Box Watermarks on Deep Learning Models under Neural Structural Obfuscation复现,套磁老师考核
复旦老师夏令营考核。向前生成并注入虚拟神经元。这个过程考虑了注入的虚拟神经元的隐蔽性。进一步伪装(Further Camouflage):最后一步是通过其他DNN上的不变变换来进一步伪装注入的虚拟神经元,包括在规模、位置和形状上,目的是将原始模型转换为与原始自身几乎没有结构相似性的混淆模型,同时保持模型的正常效用。
2024-05-29 22:07:51
1738
1
原创 《Adversarial Attacks and Defenses in Deep Learning: From a Perspective of Cybersecurity》论文解读
本文首先强调了深度学习技术在多种任务中的广泛应用和取得的显著成就,尤其是深度学习在图像识别、语音识别、自然语言处理等领域的关键作用。然而,作者们也指出了深度学习模型的一个主要问题:对抗性样本的存在使得深度学习模型的安全性和稳定性受到威胁。对抗性样本是指通过在原始数据中添加精心设计的微小扰动,导致深度学习模型以高概率给出错误预测的样本。这些扰动对于人类来说通常是难以察觉的,但对模型的预测结果却有显著的影响。这种现象在自动驾驶车辆、安全监控等关键领域尤为令人担忧,因为模型的失败可能导致严重的安全事故。
2024-05-03 18:12:34
1013
原创 《A Review of Adversarial Attack and Defense for Classification Methods》论文解读
对抗性攻击的概念:对抗性攻击是指在已知的自然样本和受害模型的基础上,通过精心设计的小扰动来生成对抗性示例的过程。对抗性示例的重要性:作者提到,对抗性示例的存在对于在安全敏感领域部署DNNs或相关方法构成了严重的问题,如自动驾驶汽车、飞行控制系统和医疗系统等。泛化与对抗性攻击:尽管DNNs在训练集上表现出色,但它们容易受到对抗性攻击的影响,这些攻击通过向输入添加精心设计的扰动来误导模型。攻击的优化问题:对抗性攻击通常被表述为一个优化问题,目标是在保持输入外观不变的同时最大化分类器的损失函数。
2024-05-02 18:09:17
790
原创 Query-Efficient Black-Box Adversarial Attack With Customized Iteration and Sampling(论文解读,代码复现)
黑盒攻击无法像白盒攻击一样直接计算目标模型的梯度,因此不太可能通过gradient-based or optimization-based攻击来得到拥有小噪声强度的对抗样本对于黑盒攻击,只能通过查询目标模型,得到输出(往往是硬标签),这种查询成本高。在有限查询的条件下,要压缩已经得到的对抗样本的噪声难度大而现有的黑盒攻击存在问题modeltransfer-based攻击在替代模型上往往过拟合(对抗样本(包含其步长、迭代次数)只在替代模型上有效),目标模型无法错误分类此对抗样本。
2024-04-25 16:01:44
1453
1
原创 Efficient Decision-based Black-box Patch Attacks on Video Recognition(背景、本文要解决的问题、创新点、方案和实验、代码复现)
EfficientDecision−basedBlack−boxPatchAttacksonVideoRecognitionpatch 包括 texture, position, shape。
2024-03-20 12:46:06
1274
原创 2023计算机组成原理【5-7】
1.指令周期的概念,与时钟周期、机器周期的区别。数据通路的含义(包括组合逻辑元件、存储元件),要求理解不是记下来。组合逻辑(操作)元件和存储(状态)元件组成。CPU由数据通路和控制部件两大部分组成。通常将指令执行过程中数据所经过的路径,包括路径上的部件称为数据通路。通常把数据通路中专门进行数据运算的部件称为执行部件或功能部件。程序计数器(PC)和指令寄存器(IR)等寄存器的功能与作用。程序计数器(PC),又称指令计数器,用来存放指令的地址。指令寄存器(IR),用以存放现行指令。
2023-06-25 21:05:55
1828
空空如也
来自诺艾尔骑士团的考核
2021-09-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅