- 博客(125)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 大模型时代下,算力不够,如何做科研?——四个思路
总之,不论是Adapter,还是Hard Prompt,Soft Prompt,还是Visual Prompt,它们的共通性就是当你有一个已经训练好的大模型的时候,希望这个模型是锁住不动的,这样不光有利于训练而且有利于做部署,做这个下游任务的transfer,而且它的性能还不降,很多时候它不降反升。由于近几年非常受追捧,huggingface也开放了用来做PEFT的一个包,可以在GitHub上找到 (https://github.com/huggingface/peft),它的目的就是。
2024-12-26 15:46:43
1065
原创 图文并茂【Mamba模型】详解
Maarten Grootendorst大佬写了《A Visual Guide to Mamba and State Space Models》,以比较生动形象的图表和语言概括了Mamba的工作,介绍了为什么要提出Mamba、SSM是什么?如何从SSM到S4?如何从S4到Mamba?因此,本文以这篇blog为基础路径,用通俗易懂的语言详细介绍Mamba的来龙去脉,让初学者也能轻松读懂Mamba。状态空间是一组能够完整捕捉系统行为的最少变量集合。它是一种数学建模方法,通过定义系统的所有可能状态来表述问题。
2024-12-20 12:00:27
15523
2
原创 多模态大模型之BLIP-2
1. 为什么要冻结图像编码器和语言模型的参数?可以显著降低训练的计算成本,因为不用更新这些大型模型的参数。可以避免灾难性遗忘,保留单模态预训练模型中已经学习到的丰富知识。2. Q-Former 的作用是什么,为什么需要它?Q-Former 起到了桥梁的作用,在冻结的图像编码器和语言模型之间传递信息。可以看做类似Prompt-Tuning中的一种可学习的「软提示」。
2024-12-17 11:21:44
1220
原创 BatchNorm 与 LayerNorm
今天重看Transformer,发现里面提到了BatchNorm和LayerNorm两种归一化方法,在这儿做一下总结和整理。
2024-12-15 21:10:36
1398
原创 多模态大模型(二)——用Transformer Encoder和Decoder的方法(BLIP、CoCa、BEiTv3)
在多模态学习之前都是Oscar或者Uniter等这些工作,他们的缺陷都是因为用了一个Object Detection的模型去做视觉特征的抽取,太慢且太贵了。所以在Vision Transformer(ViT) 出来之后,ViLT的作者就想到可以把vision部分用 ViT 去代替,就一个Embedding层就足够了,这样一来大大简化了模型结构。原始的OSCAR等工作由于Modality Fusion做的很好,多模态任务非常强。CLIP很高效,适合做Image Text Retrieval。
2024-12-13 21:55:02
1174
原创 多模态大模型(一)——只用Transformer Encoder的方法(CLIP、ViLT、ALBEF、VLMo)
总之VLMo还是非常有效的,它在 4 million的数据集上的表现就已经非常亮眼了,它跟 ALBEF去做这种公平对比的时候,是比 ALBEF全线都要高的要 2 到 3 个点,所以算是 significant improvement。
2024-12-12 17:13:35
1168
原创 图卷积网络GCN与图注意力网络GAT原理详解
CNN的核心在于它的kernel(卷积核),简单来说,kernel是一个个小窗口,在图片上平移,通过卷积的方式来提取特征。当对象是自然语言这样的序列信息时,是一个一维的结构,此时RNN系列被提出,通过各种门的操作,使得序列前后的信息相互影响,从而很好地捕捉序列的特征。上面所提到的图片或者自然语言,都是属于欧式空间的数据,因此才有维度的概念,欧式空间数据的特点就是数据结构很规则。然而,在现实生活中,其实有很多不规则的数据结构,典型的就是。可以发现,这个特征前面的系数,就是邻接矩阵的2号节点对应的那一行数据。
2024-11-30 21:28:10
1372
原创 交叉熵【Cross Entropy】与KL散度【Kullback-Leibler Divergence】
如果说熵是衡量一个随机变量分布内在不确定性的指标,那交叉熵就是衡量两个概率分布(真实分布和预测分布)之间差异的指标。对于给定的真实分布PPP和预测分布QQQ交叉熵HPQ−∑xPxlogQxHPQ−x∑PxlogQx【e.g.】以分类任务为例。如图所示,一张图像经过神经网络处理,softmax函数处理得到概率分布[0.775, 0.116, 0.039, 0.070] (预测概率分布)这张图像真实对应的类别向量为。
2024-11-22 17:28:47
1117
原创 基函数、核函数与Kernel trick
基函数是在函数空间中的一组基础函数,构成函数空间的基本单元,可以用来表示其他函数,类似于向量空间中的基向量。其作用是线性组合以逼近复杂函数,显式地构建函数表达。
2024-11-21 22:24:00
1250
1
原创 拉普拉斯矩阵【Laplacian Matrix】
给定一个无向图GVEG=(V,E)GVE,其中V是顶点集合,E是边集合。其普通形式的拉普拉斯矩阵LD−AL=D-ALD−A为对称矩阵Adjacency matrix(邻接矩阵)AAAAij1ij∈E0ij∉EAij10ij∈Eij∈E,注意其中Aii0A(i,i)=0Aii0。Degree matrix(度矩阵)DDD是一个对角矩阵,对角线上每个元素:Dii∑j1NAijDi。
2024-11-20 16:09:02
1978
原创 流形学习【Manifold Learning】
流形是局部具有欧几里得空间性质的拓扑空间。换句话说,流形是一个可以在局部范围内近似为欧几里得空间的空间。欧几里得空间(Euclidean space)是一类特殊的向量空间,它允许讨论长度、夹角等几何性质。n维欧几里得空间表示为RnRn是由所有n元有序实数元组构成的空间。二维欧几里得空间R2R2:由所有形如xy(x,y)xy的有序对组成,可以表示平面上的所有点。三维欧几里得空间R3R3:由所有形如xyz(x,y,z)xyz。
2024-11-18 21:23:03
2156
原创 【调优方法】——warmup预热
warmup是一种学习率预热的方法,是指在训练开始时使用较小的学习率,经过一段时间(如若干个epoch或steps)逐渐增加学习率,直到达到预先设置的学习率。这种策略可以帮助模型在初期避免大幅度的参数更新。
2024-11-03 21:43:38
915
原创 从RNN讲起(RNN、LSTM、GRU、BiGRU)——序列数据处理网络
循环神经网络是一类用于处理序列数据的神经网络,它一般以序列数据作为输入,通过网络内部的结构设计有效地捕捉序列之间的关系,以序列的形式输出。与传统的前馈神经网络不同,RNN具有"记忆"能力,通过在网络中引入循环连接,使得其可以利用先前的输入信息来影响当前的输出。这使得RNN非常适合处理具有时间依赖性或顺序性的任务。长短期记忆网络(LSTM, Long Short-Term Memory)是一种特殊的循环神经网络RNN,设计用来解决传统RNN在处理长序列数据时遇到的梯度消失和梯度爆炸问题。
2024-10-12 17:31:55
4170
1
原创 CLIP——多模态预训练模型介绍
CLIP的zero-shot性能虽然和有监督的ResNet50相当,但是还不是SOTA,作者估计要达到SOTA的效果,CLIP还需要增加1000x的计算量,这个硬件条件很难满足。zero-shot CLIP 在某些数据集上表现也并不好,在一些细分类任务上,CLIP 的性能低于 ResNet50。同时 CLIP 也无法处理抽象的概念,也无法做一些更难的任务(如统计某个物体的个数)。作者认为还有很多很多任务,CLIP 的 zero-shot 表现接近于瞎猜。
2024-10-11 10:21:27
2434
原创 Hierarchical Consensus Hashing for Cross-Modal Retrieval
跨模态哈希(CMH)因其在不同模态之间的高效检索而受到广泛关注。存在问题:然而,现有的方法大多不自觉地忽略了数据的层次结构信息,往往学习单层哈希函数直接将跨模态数据一步转换为常见的低维哈希码。这种突然的维度下降和巨大的语义缺口会造成判别信息的丢失。本文提出:为此,本文采用了一种从粗到细的渐进机制,并提出了一种新的为了减少重要判别信息的丢失,提出了一种由粗到细的分层哈希方案,该方案利用两层哈希函数逐步细化有益的判别信息。在分层哈希函数上施加ℓ21\ell_{2,1}ℓ21。
2024-10-07 21:30:54
1166
1
原创 奇异值分解SVD
对于任意一个m×nm \times nm×n的矩阵AAA,存在三个矩阵UUUVVV和Σ\SigmaΣAUΣVTAUΣVTU∈Rm×mU∈Rm×m称为左奇异矩阵V∈Rn×nV∈Rn×n称为右奇异矩阵Σ∈Rm×nΣ∈Rm×n是对角矩阵,对角线的元素是非负实数,按降序排列,这些值称为奇异值。UUU和VVV均为单位正交阵(即UUTIUU^T=IUUTI和VVTI。
2024-10-07 21:06:43
1067
原创 CCAH: A CLIP-Based Cycle Alignment Hashing Method for Unsupervised Vision-Text Retrieval
存在问题:图片通常附有相应的文字描述而不是标签。然而,由于模态划分(modal divide)和语义差异(semantic differences),现有的无监督方法不能充分弥合模态差距,导致检索结果不理想。文本提出: 基于CLIP的循环对齐哈希算法 用于无监督视觉文本检索(CCAH其目的是利用模态原始特征与重构特征之间的语义联系。首先,我们设计了一种模态循环交互方法(modal cyclic interaction method)
2023-07-11 11:12:44
1292
1
原创 Learning From Expert: Vision-Language Knowledge Distillation for Unsupervised Cross-Modal Hashing检索
无监督跨模态哈希的现有方法存在一些瓶颈:1)现有的无监督方法由于缺乏不同模态特征之间的相关性,简单的特征不能完全描述多模态数据的细粒度关系,导致相似性度量不准确。2)现有的方法很少探索视觉-语言知识蒸馏方案,以提取这些视觉-语言模型的多模态知识来指导学生网络的学习。无监督跨模态哈希检索的视觉-语言知识蒸馏 Vision-Language Knowledge Distilation for Unsupervised Cross-Modal Hashing Retrieval(VLKD)
2023-07-05 09:23:39
994
原创 Deep Hash Distillation for Image Retrieval
提出动机/现有方法存在问题:在基于哈希的图像检索系统中,图像退化(衰减)或变换 (degraded or transformed)通常会产生与原始图像不同的编码,从而降低检索精度。为了缓解上述问题,可以在训练期间应用数据增强(data augmentation)。然而,即使图像的增强样本在真实特征空间中是相似的,量化(quantization)也会使它们在汉明空间中分散的很远。这将导致表示差异,从而阻碍训练并降低性能。本文提出:一种新的。
2023-06-25 16:01:42
1194
原创 Semantic Structure Enhanced Contrastive Adversarial Hash Network for 跨媒体表示学习
现有方法存在问题/提出动机现有的方法没有同时考虑细粒度的语义特征和语义结构来挖掘隐含的跨媒体语义关联,这导致跨媒体表示的语义判别性和一致性较弱。文本提出 一种新的用于跨媒体表示学习的语义结构增强的对比对抗性哈希网络(SCAHN)。1)首先,为了捕捉更细粒度的跨媒体语义关联,构建了细粒度的跨媒体注意力特征学习网络,从而使学习到的不同模态的显著性特征更有利于跨媒体语义对齐和融合。2)其次,为了进一步提高隐含跨媒体语义关联的学习能力,构建了一个语义标签关联图,并利用图卷积网络。
2023-06-17 20:15:39
972
原创 Unsupervised Contrastive Cross-Modal Hashing
本文主要研究了如何通过克服两个挑战,使无监督跨模态哈希(CMH)从对比学习(CL)中受益。确切来说,1)为了解决哈希二值优化导致的性能下降问题,我们提出了一种新的,该优化器在CL中执行可学习的哈希运算,从而使现有的深度跨模态哈希成为可能。换句话说,我们的方法不像现有的大多数方法那样涉及二值连续松弛,因此具有更好的检索性能。2)为了减轻假负对(FNP)带来的影响【FNP指的是被错误地视为负对的类内对】,提出了一种,它利用了所有对而不是仅对困难负对的区分。
2023-06-13 20:53:45
1225
1
原创 Self-Attentive CLIP Hashing for Unsupervised Cross-Modal Retrieval
本文提出的动机/现有方法存在问题:1)大多数现有研究在有效利用原始图像-文本对raw image-text pairs来生成判别特征表示方面 存在困难。2)这些方法忽略了不同模态之间的潜在关系不能构建稳健的相似性矩阵,导致检索性能次优。自注意CLIP哈希(SACH)利用预训练的CLIP模型构建特征提取网络,该模型在零样本任务中表现出了优异的性能。此外,为了充分利用语义关系,引入了注意力模块来减少冗余信息的干扰,并将注意力集中在重要信息上。在此基础上,构造了一个语义融合相似度矩阵。
2023-06-12 20:40:40
663
原创 Aggregation-Based Graph Convolutional Hashing for Unsupervised Cross-Modal Retrieval
本文的提出动机/现存的问题:1)尽管监督方法取得了巨大的成功,但现有的无监督哈希方法仍然存在缺乏可靠的学习指导(learning guidance)和跨模态异构(cross-modal discrepancy)的问题。2)单个相似性度量很难全面地表示数据关系。基于聚合的图卷积哈希(AGCH)1)考虑到单个相似性度量很难全面地表示数据关系,开发了一种高效的聚合策略,利用多个度量来构建更精确的亲和矩阵(affinity matrix)用于学习。具体来说,
2023-06-08 21:36:37
525
原创 Python基础——元组
文章目录元组简介创建和访问一个元组更新和删除元组常用操作符元组简介前一篇文章介绍了Python中的列表,元组和列表最大的区别就是你可以任意修改列表中的元素,可以任意插入或删除一个元素,而对元组是不行的,元组是不可改变的。创建和访问一个元组列表和元组,除了不可改变这个显著特征外,还有一个明显区别是,创建列表用的是中括号[],而创建元组大部分时候用的是小括号()。访问元组的方式与列表无异:也使用分片的方式来复制一个元组:此外,从一开始也强调过,不能修改元组中的元素:关于创
2022-05-31 21:28:02
1132
Aggregation-Based Graph Convolutional Hashing
2025-03-10
Semantic Structure Enhanced Contrastive Adversarial Hash Network
2025-03-10
MAE-Masked Autoencoders Are Scalable Vision Learners
2024-11-24
Hierarchical Consensus Hashing for Cross-Modal Retrieval
2024-11-24
链表经典编程题.zip
2021-04-19
平时我们能感受到线程吗?
2022-03-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人