- 博客(141)
- 问答 (1)
- 收藏
- 关注
原创 PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
在大型视觉语言模型(LVLMs)中,图像作为携带丰富信息的输入源。正如"一图胜千言"这一成语所喻,当前LVLMs中表示单幅图像可能需要数百甚至数千个标记(tokens)。这种情况导致了显著的计算成本,且随着输入图像分辨率的提升呈二次方增长,从而严重影响了效率。以往的方法尝试在LVLMs的早期阶段之前或内部减少图像标记的数量,但这些策略不可避免地会导致关键图像信息的丢失。为应对这一挑战,我们通过实证研究发现:在浅层网络中,所有视觉标记对LVLMs都是必要的;而随着网络深度增加,标记冗余度逐步提升。
2025-04-10 17:54:00
264
原创 LLAVA-MINI: EFFICIENT IMAGE AND VIDEO LARGE MULTIMODAL MODELS WITH ONE VISION TOKEN 论文解读
像GPT-4o这样的实时大型多模态模型(LMMs)的出现,引发了人们对高效LMMs的浓厚兴趣。LMM框架通常会将视觉输入编码为视觉令牌(连续表示),并将其与文本指令整合到大语言模型(LLMs)的上下文环境中。在这种情况下,大规模的参数和大量的上下文令牌(主要是视觉令牌)会导致巨大的计算开销。以往提高LMM效率的工作总是聚焦于用较小的模型替换LLM主干,却忽略了令牌数量这一关键问题。在本文中,我们推出了LLaVA-Mini,这是一种高效的大型多模态模型,仅需极少的视觉令牌。
2025-04-01 10:29:33
1002
原创 Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration 论文解读
近期关于加速视觉语言模型的研究表明,即便对视觉信息进行高度压缩,模型仍能在各种视觉语言任务中保持强大的性能。在这项研究中,我们对语言模型中流行的早期视觉令牌剪枝加速方法进行了探究,发现该方法在众多任务中表现出色,并非源于其卓越的视觉信息压缩能力,而是。具体而言,我们揭示了这种加速方法存在的一个核心问题,即图像顶部的大多数令牌被剪掉了。然而,这个问题仅在诸如定位等一小部分任务的性能中有所体现。对于其他评估任务,即便采用有缺陷的剪枝策略,模型仍能保持较高的性能。
2025-03-24 16:24:21
869
原创 MI-Zero: Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology论文解读
本文旨在通过构建一种新的方法。
2024-12-04 16:56:56
1004
原创 ViLa-MIL论文解读、代码分析
数字病理学是指将传统的玻璃病理切片进行数字化处理,并将其存储、管理和分析的过程。数字化病理切片称为全切片图像(WSI),具有高分辨率、层次化结构和巨大的数据量。
2024-12-01 09:23:54
1135
原创 Disease-informed Adaptation of Vision-Language Models 论文解读
本文背景聚焦于医学影像分析中深度学习模型适配的挑战,特别是数据稀缺和新疾病出现的情况下:医学影像领域的特殊性:预训练视觉-语言模型(Vision-Language Models, VLMs)的潜力和局限:现有方法的局限性:实际临床需求:本文提出了一种 疾病信息驱动的视觉-语言模型适配框架,由两个核心模块组成:疾病信息驱动的上下文提示 (Disease-informed Contextual Prompting, DiCoP) 和 疾病原型学习 (Disease Prototype Learning, DPL
2024-11-28 16:35:39
794
原创 Aligning Medical Images with General Knowledge from Large Language Models 论文解读
这篇论文的背景聚焦于将大型视觉-语言模型(Vision-Language Models, VLMs)应用于医学图像分析领域的挑战与潜力。这篇论文旨在解决将大型视觉-语言模型VLMs应用于医学图像分析领域时面临的以下核心问题:通过提出ViP框架,这篇论文试图在以下几个方面改进现状:ViP (Visual symptom-guided Prompt learning) 是一种新型的医学图像分析框架,通过整合预训练大型语言模型(LLM)和视觉-语言模型(VLM),实现跨领域知识迁移和医学图像分析的性能提升。其核心
2024-11-25 11:49:04
1300
原创 CLIP-Adapter: Better Vision-Language Models with Feature Adapters 论文解读
大规模对比视觉-语言预训练在视觉表示学习方面取得了显著进展。与传统的通过固定一组离散标签训练的视觉系统不同,(Radford et al., 2021) 引入了一种新范式,该范式在开放词汇环境中直接学习将图像与原始文本对齐。在下游任务中,通常需要精心设计的文本提示来进行零样本预测。为避免复杂的提示工程,(Zhou et al., 2021) 提出了上下文优化方法,利用少量样本学习连续向量作为任务特定的提示。在本文中,我们展示了除了提示调优之外,还有一条实现更优视觉-语言模型的替代路径。提示调优是针对文本输入
2024-11-23 22:41:16
1866
原创 Vision-Language Models for Vision Tasks: A Survey 论文解读
总体而言,VLM预训练通过不同的跨模态目标建模视觉-语言关联,例如图像-文本对比学习、掩码跨模态建模、图像到文本生成,以及图像-文本/区域-单词匹配。同时,还探索了各种单模态目标以充分挖掘各自模态的数据潜力,例如针对图像模态的掩码图像建模和针对文本模态的掩码语言建模。从全局层面来看,近期的VLM预训练专注于学习视觉-语言的全局关联,这对于图像级别的识别任务(如图像分类)非常有益。
2024-11-21 22:54:10
1697
原创 Swin-UMamba和SegMamba论文解读
分割后的 3D 图像,其中不同组织或结构被标记为不同的类别。医学图像分割,即将图像中的不同组织或器官进行区分和标记。: Swin-UMamba 的主要任务是进行。: 3D 医学图像分割。
2024-11-10 13:12:06
1515
原创 CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection论文解读和实验复现
CLIP-Driven Universal Model的框架结合了文本和图像信息,以提高医学图像分割和肿瘤检测的准确性和泛化能力。下载好模型权重和数据集,并放置在对应的文件夹下,再运行validation.py即可。我选用的是MSD的task 09 Spleen。同时,获得DSC分数。
2024-11-05 21:01:15
979
1
原创 A Survey on Multimodal Large Language Models论文解读
指令:指任务的描述。指令调整目的:教导模型更好地理解用户指令并完成要求任务,从而使模型能够通过遵循新指令来泛化到未见任务,提高零样本性能。与相关学习范式比较:与监督式微调和提示工程相比,指令调整学习如何泛化到未见任务,而不是拟合特定任务。对齐调整通常用于需要模型与特定人类偏好对齐的场景,例如减少幻觉(hallucinations)的响应。目前,强化学习与人类反馈(RLHF)和直接偏好优化(DPO)是对齐调整的两种主要技术。
2024-10-13 16:43:51
1569
1
原创 Defining Smart Contract Defects on Ethereum论文解读
智能合约的不可变性:智能合约一旦部署到区块链就无法修改,因此检测和修复缺陷至关重要,以确保合约的健壮性。智能合约与传统软件的差异:与传统的软件(如 Android 应用)相比,智能合约具有独特的特性,例如 gas 系统、去中心化等,这可能导致智能合约包含一些特定的缺陷。
2024-09-27 16:17:22
1418
6
原创 Definition and Detection of Defects in NFT Smart Contracts论文解读、复现
主要组件:负责接收和处理输入的Solidity源代码。用于检测合约中的关键特征,如映射存储、删除操作和外部调用。基于符号执行构建控制流图(CFG),用于分析合约的执行路径。根据预定义的规则和模式识别和报告检测到的缺陷。用户输入Solidity源代码,该代码被编译成EVM字节码和抽象语法树(AST)以供进一步分析。Inputter组件从AST中提取源映射信息,并使用槽映射来存储变量与它们槽ID之间的映射关系。
2024-09-11 20:01:01
983
原创 中山大学网络空间安全学院夏令营经历
入营了大概60人吧确认参营55+实际到场473个候补,44个优营我处在优营较末尾处,应该是不会来中大了因为中大是根据排名发学硕专硕的,并且中大的专硕和学硕只有学费上有差别(即毕业要求和年限都是一样的)。所以中大的专硕没有吸引人的点,而且根据往年的情况,中大专硕鸽子非常多(印证了它的专硕并不吸引人)。
2024-07-20 13:19:29
921
2
原创 西安交通大学网络安全学院夏令营考核(读论文、复现代码、代码添加模块)
其中:第1篇文献boundaryattack第5篇文献triangleattack补充各种对抗性标准:误分类:扰动后的样本被分类为与原始样本不同的类别。有目标误分类:扰动后的样本被分类为目标类别。顶 k 误分类:扰动后的样本的预测类别不在原始样本的预测类别的前 k 个中。某些置信度分数的阈值。
2024-07-09 08:07:05
1099
1
原创 Triangle Attack: A Query-efficient Decision-based Adversarial Attack (论文解读、代码复现)
深度神经网络的进展: 尽管深度神经网络在各个领域取得了突破性的进展,但其对对抗样本的脆弱性仍然存在。现有研究的不足: 尽管最近的研究将查询次数从数百万减少到数千次,但仍然不足以满足大多数实际应用的需求。现有决策型攻击方法的局限性: 大多数现有的决策型攻击方法在每个迭代步骤都将对抗样本限制在上,并通常采用不同的梯度估计方法进行攻击。
2024-06-29 23:47:02
1026
原创 Rethinking White-Box Watermarks on Deep Learning Models under Neural Structural Obfuscation复现,套磁老师考核
复旦老师夏令营考核。向前生成并注入虚拟神经元。这个过程考虑了注入的虚拟神经元的隐蔽性。进一步伪装(Further Camouflage):最后一步是通过其他DNN上的不变变换来进一步伪装注入的虚拟神经元,包括在规模、位置和形状上,目的是将原始模型转换为与原始自身几乎没有结构相似性的混淆模型,同时保持模型的正常效用。
2024-05-29 22:07:51
1413
1
原创 《Adversarial Attacks and Defenses in Deep Learning: From a Perspective of Cybersecurity》论文解读
本文首先强调了深度学习技术在多种任务中的广泛应用和取得的显著成就,尤其是深度学习在图像识别、语音识别、自然语言处理等领域的关键作用。然而,作者们也指出了深度学习模型的一个主要问题:对抗性样本的存在使得深度学习模型的安全性和稳定性受到威胁。对抗性样本是指通过在原始数据中添加精心设计的微小扰动,导致深度学习模型以高概率给出错误预测的样本。这些扰动对于人类来说通常是难以察觉的,但对模型的预测结果却有显著的影响。这种现象在自动驾驶车辆、安全监控等关键领域尤为令人担忧,因为模型的失败可能导致严重的安全事故。
2024-05-03 18:12:34
873
原创 《A Review of Adversarial Attack and Defense for Classification Methods》论文解读
对抗性攻击的概念:对抗性攻击是指在已知的自然样本和受害模型的基础上,通过精心设计的小扰动来生成对抗性示例的过程。对抗性示例的重要性:作者提到,对抗性示例的存在对于在安全敏感领域部署DNNs或相关方法构成了严重的问题,如自动驾驶汽车、飞行控制系统和医疗系统等。泛化与对抗性攻击:尽管DNNs在训练集上表现出色,但它们容易受到对抗性攻击的影响,这些攻击通过向输入添加精心设计的扰动来误导模型。攻击的优化问题:对抗性攻击通常被表述为一个优化问题,目标是在保持输入外观不变的同时最大化分类器的损失函数。
2024-05-02 18:09:17
686
原创 Query-Efficient Black-Box Adversarial Attack With Customized Iteration and Sampling(论文解读,代码复现)
黑盒攻击无法像白盒攻击一样直接计算目标模型的梯度,因此不太可能通过gradient-based or optimization-based攻击来得到拥有小噪声强度的对抗样本对于黑盒攻击,只能通过查询目标模型,得到输出(往往是硬标签),这种查询成本高。在有限查询的条件下,要压缩已经得到的对抗样本的噪声难度大而现有的黑盒攻击存在问题modeltransfer-based攻击在替代模型上往往过拟合(对抗样本(包含其步长、迭代次数)只在替代模型上有效),目标模型无法错误分类此对抗样本。
2024-04-25 16:01:44
1243
原创 Efficient Decision-based Black-box Patch Attacks on Video Recognition(背景、本文要解决的问题、创新点、方案和实验、代码复现)
EfficientDecision−basedBlack−boxPatchAttacksonVideoRecognitionpatch 包括 texture, position, shape。
2024-03-20 12:46:06
1185
原创 2023计算机组成原理【5-7】
1.指令周期的概念,与时钟周期、机器周期的区别。数据通路的含义(包括组合逻辑元件、存储元件),要求理解不是记下来。组合逻辑(操作)元件和存储(状态)元件组成。CPU由数据通路和控制部件两大部分组成。通常将指令执行过程中数据所经过的路径,包括路径上的部件称为数据通路。通常把数据通路中专门进行数据运算的部件称为执行部件或功能部件。程序计数器(PC)和指令寄存器(IR)等寄存器的功能与作用。程序计数器(PC),又称指令计数器,用来存放指令的地址。指令寄存器(IR),用以存放现行指令。
2023-06-25 21:05:55
1596
原创 数据结构与算法·第10章【内部排序】
排序问题可以分为内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序;反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。在内部排序中,若对于两个相等的元素Ki和Kjij,在排序前的序列中Ri领先于Rj(即ij),排序后的序列中 Ri 仍领先于 Rj,则称所用的排序方法是稳定的;反之,若可能使排序后的序列中Rj领先于Ri,则称所用的排序方法是非稳定的。
2023-06-19 11:17:28
1273
原创 数据结构与算法·第9章【查找】
如果是,则需要进行结点的合并操作,具体而言,将该结点与其相邻的兄弟结点以及父结点中的关键字进行合并,直到满足B-树的要求为止。特别的,如果需要进行结点的合并操作时,根节点只有一个子节点,则可以将该子节点作为新的根结点。当要删除的结点既有左子树,也有右子树时,可以选择用其前驱或后继结点代替该结点的位置,然后将被选中的前驱或后继结点从原来的位置移动到要删除的结点位置上,并删除原结点。当要删除的结点只有左子树或者只有右子树时,让其子树代替它的位置,即将子树与其父节点相连,然后释放被删除结点的内存空间。
2023-06-10 15:42:03
1113
原创 数据结构与算法·第6章【树】
我们使用变量 pre 来保存当前遍历过的最后一个节点,在循环中不断更新,直到遍历到最后一个节点。最后,我们将最后一个节点的右子树指针指向头结点,并将头结点的右指针指向最后一个节点。需要注意的是,在整个过程中,我们只需要通过修改线索来实现中序遍历,无需创建新的节点或者修改原有节点的结构。这就是中序线索二叉树的优点,它可以大大提高中序遍历的效率,减少程序的内存占用。
2023-06-07 19:44:22
805
原创 数据结构·第3章【栈和队列】
栈(Stack)是限定仅在表的一端进行插入或删除操作的线性表。通常称插入删除的一端为栈顶(top),另一端称为栈底(bottom)。
2023-05-29 17:22:58
966
原创 数据结构与算法·第2章【线性表】
其中,listsize是容量SqList总共能装多少个元素,length是有多少个元素// 数据域 struct LNode * next;// 指针域 } LNode , * LinkList;// 定义一个头结点指针 LinkList L = head;// 定义一个链表L并将头结点指针赋给它// 数据域 struct DuLNode * prior;// 指向前驱的指针域 struct DuLNode * next;
2023-05-27 22:45:28
840
原创 Kruskal算法、Kruskal重构树、LCA算法
KruskalKruskalKruskal 算法是一种求解最小生成树的贪心算法。它的基本思想是从图中的边集中依次选取边,使得选出的边不会构成回路,并且满足边权和最小。具体实现过程如下:将原图中的所有边按照边权从小到大排序。依次选取排序后的边,如果这条边的两个端点不在同一个连通块中,则加入该边,将它们之间的连通块合并成一个新的连通块,并把该边加入最小生成树的边集中。重复上述步骤,直至加入 n−1n−1n−1 条边(其中 nnn 表示原图的节点数),此时得到的边集即为原图的最小生成树。KruskalKruska
2023-05-09 19:23:12
1111
原创 云服务器上已经部署完flask项目,但仍然无法访问的解决
我在服务器上运行了程序但是我通过 公网ip+端口号,仍然访问不了。并且通过另一个远程连接,测试,显示并且在flask代码中写。
2023-04-23 11:03:33
1368
1
原创 关于Python程序在终端出现could not import “app“的问题
我在pycharm写好了flask程序,并且在pycharm中可以运行。接下来,我把flask部署到服务器上,在云服务器上运行时,出现"could not import app"在网上找了很多办法,都不能直接解决我的问题。这个问题花了我相当多的时间app.py。
2023-04-22 16:54:07
1302
原创 蓝桥杯真题2021c++省A题解
小蓝有很多数字卡片,每张卡片上都是数字0到9。小蓝准备用这些卡片来拼一些数,他想从1开始拼出正整数,每拼一个,就保存起来,卡片就不能用来拼其它数了。小蓝想知道自己能从1拼到多少。例如,当小蓝有30张卡片,其中0到9各3张,则小蓝可以拼出1到10,但是拼11时卡片1已经只有一张了,不够拼出11。现在小蓝手里有0到9的卡片各2021张,共20210张,请问小蓝可以从1拼到多少?3181。
2023-03-26 15:26:38
1592
1
原创 基础数论算法刷题笔记
数论的题目,首先分析题目的意思,分解成数论相关的模型接着,思路往自己学过的数论知识上靠——质因子、质数、最大公约数辗转相除法、辗转相乘法、公因数。
2023-03-16 16:33:39
945
1
空空如也
来自诺艾尔骑士团的考核
2021-09-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人