- 博客(90)
- 收藏
- 关注
原创 KV-Cache技术小结(MHA,GQA,MQA,MLA)
KV-cache技术是目前,等自回归模型常用的避免冗余计算的手段。但引入该技术需要额外的存储成本。原生的kv-cache所需的存储成本与生成的token长度成正比,是目前长文本生成的主要瓶颈之一。目前针对如何降低KV-cache的存储成本激起大量研究者广泛关注。 (Group Query Attention), (Multi Query Attention), (Multi-Head Latent Attention)是目前常用的方法。本文将从经典的casual attention出发,阐述kv-cache
2025-02-22 12:19:04
282
原创 表格结构还原——SLANet
</td>来模拟空白单元格引入<td用于和rowspan,colpan来拼接,便于处理合并单元格的情况。label idlabel name说明0sossequence起始符1<thead>表格标题标记(始)2<tr>表格行标记(始)3
2025-02-22 11:59:39
794
原创 diffusion model(十九) :SDE视角下的扩散模型
前置知识:DDPM: http://myhz0606.com/article/ddpmSMLD: http://myhz0606.com/article/ncsn个人博客地址:http://myhz0606.com/article/sde_dm1 背景生成模型期望将未知的数据分布与已知的先验分布建立起映射关系,从而实现从先验分布采样,映射到数据分布样本点,实现图片生成。生成模型通常包含两个过程:data distribution⇌反向过程前向过程prior distribution(1)\ma
2024-12-31 19:22:29
961
2
原创 RNN并行化——《Were RNNs All We Needed?》论文解读
InfoPaperhttps://arxiv.org/abs/2410.01201GitHubhttps://github.com/lucidrains/minGRU-pytorch个人博客地址http://myhz0606.com/article/mini_rnn最近在看并行RNN相关的paper,发现很多都利用了Parallel Scanning算法。本文将从Parallel Scanning算法开始,介绍Bengio团队不久前发表的《Were RNNs Al
2024-11-22 08:26:40
1572
1
原创 SigLIP技术小结
sigmoid-based contrastive learning从经典的softmax-based contrastive learning的“pick the right class”转化为“rate this pair”。这个转化实现了compute efficient和memory efficient,并在实验中证明,siglip在小batch下(低于32k)更具优势。
2024-09-28 10:10:35
2239
原创 BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)
虽然过去BLIP系列对LMM发展起到至关重要的作用,但从效果上来说,已经远落后于当下的SOTA模型,主要有一下3点原因:1)数据上,训练数据数量少、质量不高、多样性不强。2)训练策略上,多个stage(`ITM`,`ITC`, `ITG`)训练流程冗长,up scale的训练开销大3)模型架构上,`BLIP`系列仅支持单图输入,应用范围相对较窄BLIP3针对以上3个方面进行改进:1)数据上,构造了更大的、质量更高、多样性更强的数据集。2)训练策略上,提出3 stage 的训练范式,并统一用nex
2024-09-08 09:44:12
2822
原创 Data Filtering Network论文浅析
文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式:• Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”;• Stage2: 用DFN清洗后的数据训练induced model (即CLIP)。“data-pool → DFN (trained)→ induced dataset → induced model”。
2024-09-08 09:37:08
1113
原创 LoRA[1]: 微调大模型的一种轻量级方法
当需要在特定任务上提高通用大模型的泛化能力时,微调是一个非常常用的方法。然而,在通用领域预训练的大模型模型参数非常庞大,以GPT-3为例,参数数量高达175B,这意味着没有多少公司具备微调如此大规模模型的钞能力。因此,轻量化微调技术在今年引起了学术界和工业界的广泛关注和研究。一些代表性的轻量化微调技术包括Adapter和P-Tuning等。在本文中,我们将介绍一种从低维本征维度的角度出发的技术,即LoRA(ow-ankdaption),以解决这个问题。
2024-08-10 15:06:45
1347
原创 Supervised Contrastive Learning
paperhttps://arxiv.org/abs/2004.11362githubhttps://github.com/HobbitLong/SupContrast个人博客位置http://myhz0606.com/article/SupCon1 Motivation经典的自监督对比学习方法以instance discrimination作为pretext task。在这种方法中,会对batch的图片进行数据增强,以同一图片不同的数据增强为正例,其它作为负例,以自监
2024-07-13 14:54:30
1292
1
原创 diffusion model(十八):diffusion model中negative prompt的工作机制
前置阅读:DDPM: http://myhz0606.com/article/ddpmclassifier-guided:http://myhz0606.com/article/guidedclassifier-free guided:http://myhz0606.com/article/classifier_freeScore based generative model:http://myhz0606.com/article/ncsn在用生成图片时,除了输入图片表述文本外(positive promp
2024-06-24 17:52:48
1379
原创 softmax的数值溢出问题
softmax是deep learning常用的一个操作,虽然有很多现成的包可以调,但在某些场景下需要自己实现。本文简单探讨一下浮现softmax可能会出现的数值稳定性问题。联用时(如计算cross-entropy损失),会出现。,此时应当进行如下变形。很大时,分子可能出现。
2024-06-18 08:11:19
871
原创 Score Matching推导,Denoising Score Matching推导
A Score Matching推导不妨假定x\mathrm{x}x是ddd维的随机向量,即x∈Rd\mathrm{x}\in \mathbb{R}^dx∈Rdx=[x1,x2,⋯ ,xd]T,sθ(x)=[s1(x;θ),s2(x;θ),⋯ ,sd(x;θ)]T(A.1) \boldsymbol {\mathrm{x}} = [x_1, x_2, \cdots, x_d]^T, \quad s_{\theta}(\boldsymbol {\mathrm{x}}) = [s_1(\mathrm{x;
2024-05-30 19:39:19
1009
原创 diffusion model(十七)Score视角下的生成模型(Score-Based Generative Models)
infopaperGenerative Modeling by Estimating Gradients of the Data Distributionsongyang 大佬博客https://yang-song.net/blog/2021/score/song yang 大佬视频讲解https://www.youtube.com/watch?v=wMmqCMwuM2QGithubhttps://github.com/ermongroup/ncsn个人博
2024-05-30 19:38:15
1338
1
原创 diffusion model(十六):Layer Diffusion 技术小结
为了做含有透明通道的生成任务,需要通过diffusion的方法建立简单的高斯分布与含有透明通道信息的latent的联系。例如,如果我们希望固定前景并生成相应的背景图像,亦或给定背景的情况下生成不同的前景元素,上述的方法都不能实现。上述两种架构的生成效果都不好。神经网络能够在不改变整体特征分布的情况下,将图像隐藏在现有特征内部的扰动中,例如,通过小的、不可见的像素扰动将图像隐藏在另一个图像中。作者分别展示了根据前景生成背景,根据背景生成前景情形,生成效果都非常不错,前背景的语义连贯性很好,有较大的实用价值。
2024-05-30 19:28:13
833
原创 InstantStyle技术小结
作者通过对不同的DM中不同的attention layer进行分析,发现up blocks.0.attentions.1和down blocks.2.attentions.1对style和layout的捕捉能力最强。为了减轻IP-adapter中的image condition对prompt following的影响,仅在这两层将cross attention换成decouple cross-attention。简单来说,就是将CLIP得到的image feature减去object feature。
2024-05-30 19:23:47
1085
原创 diffusion model(十五) : IP-Adapter技术小结
为了对文生图diffusion model进行特定概念的定制,常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端:每一个新的概念都需要重新训练一个权重,比较麻烦。那么,能不能有一个方法inference前无须微调,只需给一张reference image,就能将该图片的概念融入到生成过程中?这就是IP-adapter想要解决的问题。
2024-04-05 18:13:34
2217
2
原创 DreamSim技术小结
虽然在大量数据上训练的vision foundation model提取的embedding具备丰富的high level特征并在图像搜索等业务取得了大量成功,但模型计算的相似性和human perceptual similarity还是有一定的差距。10轮标注后,每一个三元组都有10份标注结果,若当前三元组超过6份标注结果一致,则认为该标注结果可信。通过模型预测和标注的差异来评估模型对human perceptual similarity的对齐程度。表示当前三元组的标注结果。),参考图片Ref(
2024-03-31 16:46:41
938
原创 diffusion model(十三):DiT技术小结
DDPMLDM(隐空间扩散模型基本原理,stable diffusion 底层架构)classifier-free guided(文生图基本原理)
2024-03-10 11:30:37
1896
原创 diffusion model(十二): StableCascade技术小结
前置知识:latent diffusion model(stable diffusion)知乎 个人博客 paperclassifier-free guided: 知乎 个人博客 paperDiffusion model()的提出将图像生成任务推到了前所未有的高度。随着应用人数的增多,人们对文生图模型有了更高的期望:生成质量更高、生成分辨率更大、推理速度更快、生成的图片与文本的alignment更强等。更大的分辨率意味着更大的算力需求。现在的常用做法是先用先生成一个分辨率相对较低的图片,
2024-03-10 11:27:02
987
原创 Matryoshka Representation Learning技术小结
来映射到表征空间,再接入一个classifier(也是个全连接层)得到该图片在类别上的概率分布。用这个方法训练,一次训练我们只能得到一种维度的图片表征(如图中是2048维))这篇paper介绍了一个很简单但有效的方法能实现一次训练,获取不同维度的表征提取。不同维度的表征在imagenet1K上linear classification和1-NN的准确率。为了一次训练获得不同维度的图片表征,最简单粗暴的方法就是我们可以用多个。和Classifier进行分片,从而实现不同维度的表征训练。更多实验结果见原论文。
2024-02-28 18:11:52
1280
1
原创 YOLO-World技术小结
的key,value,将text embedding作为query进行特征交互,从而得到image-aware的文本特征向量。目前我们可以很方便的拿到图片对数据,此处的目标是如何将图文对数据转化成,图片-instance annotation (还可以根据传入的图片和text,输出预测的box及相关的object embedding。当推理的词表是固定的时候,此时text encoder的输出是固定的,再通过NMS过滤掉冗余的bounding box。的标签是用2.3.1节的方法生成的,含有较多噪声导致。
2024-02-21 18:17:44
3121
原创 diffusion model(十一) InstantID技术小结
本文提出了一种plug-and-play 定制人脸生成模型(Plugability),给定一张人脸照片,就能生成指定风格和pos的照片。InstantID不仅前期训练成本低(compatibility),还能实现inference without fine-tune (Tuning-free)和高保真图像的生成。(Superior performance)。取得了fidelity、efficiency、flexible三者很好的平衡。
2024-01-30 09:14:22
1274
原创 diffusion model (十) anydoor技术小结
这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是:给定目标图片和场景图片就能生成在该目标在该场景不同姿态(角度、光照)的图片。从上面的描述中我们知道anydoor的训练目标是给定目标图片和场景生成该目标在该场景下不同姿态的图片。因此容易知道训练集是三元组组成的集合,即(输入目标图片,场景图片+位置,输出图片)。该公式的核心就是,提取图片中object的高频信息,随后将其与scene图片拼接。中,用diffusion model的生成方式进行图片生成。
2023-12-29 08:16:26
1234
原创 RLHF对LLM泛化性和多样性的影响
作者猜测,这是由于设置的diversity指标偏好相对短的模型输出,但Instruction Following的输出都相对较长,并且SFT和RLHF的输出长度偏好也不同(RLHF倾向更长的输出),导致计算的diversity不够准确。从结果可见,不论是in-domain还是out-of-domain数据集generalisation的排序都是RLHF>BoN>SFT,明显感受到RLHF对指令的理解更具优势。模型生成N个结果,然后用RW模型对这N个结果进行打分,取分数最大的一个。)来作为RW的输出。
2023-12-20 08:03:37
1260
原创 MiniGPT4系列小结(MiniGPT4,MiniGPT4-v2)
简单的概括:通过投影层来将图片的特征转化为LLM能够理解的token,剩下的就和LLM做的一样了。用了更丰富的指令集数据集、微调更多的训练参数、用了更多的GPU training hours,使minigpt支持更为丰富的多模态能力。为了避免生成caption答非所问的情况,作者还对生成的每一个图文对进行了人工check,以此保证数据集的质量。我们训练自己的多模态模型的时候,可以根据需要构建自己的instruction数据集。对多模态模型进行指令集微调,通过不同的instruction来实现不同的任务。
2023-12-10 10:25:52
2220
原创 diffusion model (九) EmuEdit技术小结
作者将image-edit分为了三大类,分别是Region-based Editing、Free-From Editing、Vision tasks,每个大类中有若干小类。下图展示了每一个image-edit任务所做的事。
2023-11-27 21:49:13
1164
原创 DeepMind: 训练LLM的scale law
为了探究计算资源(FLOPs)、模型大小(model size)、训练数据规模(training tokens)的关系。作者通过400个不同大小语言模型在5B-50B数据训练不同的时长,来探究LLM的scale law。作者固定FLOPs为:6e18,1e19, 3e19,6e19,1e20,3e20,6e20,1e21,3e21。因为在作者的实验中训练的token数少于实际的语料数,此时平滑的训练误差是测试误差的无偏估计。作者对每一种大小的模型进行了4种不同数量的训练序列的训练。: 最后的训练loss。
2023-11-15 08:52:45
372
原创 Attention Free Transformer(AFT)
paper: An Attention Free Transformerdate: 2021-05org: Apple原本基于dot product self attention Transformer的时间复杂度和空间复杂度都很高。提出了一个新的AFT层来降低transformer的计算量。首先回顾一下经典的Multi-Head Attention(MHA),每一个head的计算如下fi(X)=σ(Qi(Ki)Tdk)Vi, s.t. Qi=XWiQ,Ki=XWiK,Vi=XWiV,(1)f _ { i
2023-09-16 15:16:34
1310
3
原创 Nougat 深度剖析
图文对构造的整体pipeline由下图所示。从arXiv拿到的Tex源码出发拿到全篇文章的markdown标记,与pdf每页的图片与文本Branch1:TEX⟶LaTeXMLHTML⟶ParsermarkdownTEX⟶LaTeXMLHTML⟶ParsermarkdownBranch2:TEX⟶PDFLatexPDF⟶MuPDFpage1textpage2。
2023-09-05 14:23:01
946
原创 diffusion model classifier-guided与classifier-free的区别
需要重新训练diffusion model,训练成本较大。stable diffusion 在Laion5B用了256张A100训练15w 机时,一般公司无法承担如此大的训练成本。只需训练diffusion model ,但该diffusion model有一个语义输入。生成过程每一个时间步的生成需要将语义embedding也输入到diffusion model中,详细可参考。不用重新训练diffusion model就能引导朝向期望类别的图片生成。只能生成特定类别的图片,无法实现语义级别的生成。
2023-08-17 09:08:05
1097
原创 diffusion model (七) diffusion model是一个zero-shot 分类器
Paper: Your Diffusion Model is Secretly a Zero-Shot ClassifierWebsite: diffusion-classifier.github.io/最近,出现了一系列大规模的文生图模型,它们极大地增强了我们通过文字生成图片的能力。这些模型可以根据各种提示生成逼真的图片,展现出惊人的综合创作能力。到目前为止,几乎所有的应用都只关注了模型的生成功能,但实际上,这些模型还能提供条件密度估计,这对于处理图像生成之外的任务也很有用。本篇文章指出类似这样的大规模文
2023-08-17 09:01:34
655
原创 diffusion model(六)Dalle2技术小结
这是因为虽然CLIP在训练过程中通过对比损失使得图片特征与文本特征进行对齐,但是模态间还是有存在Gap[^6],Prior模块的很大的意义是给定文本embedding,准确预测出其对应CLIP的image embedding,更有益于重建的效果。Step1:将图片文本对输入到CLIP[^4]模型中获得对应的文本向量编码(text embedding)文本中每个token的编码(text encoding)及图像向量编码(image embedding)。该模型的作用是预测分布。时刻的图片向量编码。
2023-08-07 08:00:49
1231
原创 diffusion model(五)stable diffusion底层原理(latent diffusion model, LDM)
论文地址]
2023-07-28 08:02:35
3977
原创 CAN源码解析(HMER:Counting-Aware Network for HandwrittenMathematical Expression Recognition)
整体损失函数包括两个部分,其一是计数模块的smooth L1损失。其二是序列预测的交叉熵损失。CAN是一个基于encoder-decoder架构的模型。整体由3个组成部分构成。内部的详细pipeline如下。位置编码用了常规的正余弦编码。论文中的图片架构图如下。
2023-07-24 08:59:34
202
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人