
大模型和多模态
文章平均质量分 97
大模型和多模态学习
zyw2002
Talent hits a target no one else can hit; Genius hits a target no one else can see;
展开
-
LLava 代码实操
llava 实操原创 2025-02-06 10:27:04 · 1172 阅读 · 0 评论 -
【Efficient AIGC】SiTo: Similarity-based Token Pruning (AAAI-2025)
扩散模型在图像生成中的卓越表现总是伴随着巨大的计算成本,这使得扩散模型在边缘设备和交互式应用中的应用受到了限制。之前的研究主要集中于减少采样步数和压缩扩散模型的去噪网络,而本文提出了一种通过引入SiTo方法来加速扩散模型的方案。SiTo是一种基于相似性的令牌剪枝方法,它自适应地剪去输入数据中的冗余令牌。SiTo旨在通过使用廉价且硬件友好的操作,最大化模型预测结果在进行和不进行令牌剪枝时的相似性,从而实现显著的加速效果,而不会降低性能,甚至在某些情况下还能提高生成质量。原创 2025-01-20 22:55:20 · 1264 阅读 · 0 评论 -
【视频生成模型】——Hunyuan-video 论文及代码讲解和实操
HunyuanVideo 是一款全新的开源视频生成基础模型,其生成性能可与业内顶尖的闭源模型媲美。拥有超过 130 亿个参数,是当前规模最大的开源视频生成模型。该模型集成了数据精选()、高级架构设计()、渐进式模型扩展与训练(),以及高效的基础设施 (),以支持大规模模型训练与推理。HunyuanVideo 在视频生成的四个关键方面表现出色:、、和。专业评测显示,HunyuanVideo 的表现优于 Runway Gen-3、Luma 1.6 以及其他三款顶尖的中文视频生成模型。通过开源模型代码和应原创 2024-12-14 22:14:02 · 4378 阅读 · 0 评论 -
Mamba 基础讲解【SSM,LSSL,S4,S5,Mamba】
🐍 Mamba是一种状态空间模型(SSM)架构,它改进了S4架构。选择性扫描算法(selective scan algorithm),允许模型过滤相关或者不相关的信息硬件感知的算法(hardware-aware algorithm),允许通过并行扫描(parallel scan)、核融合(kernel fusion)和重计算(recomputation)有效地存储(中间)结果。原创 2024-03-21 10:41:08 · 49403 阅读 · 25 评论 -
Mamba复现与代码解读
下图是Mamba论文中的算法介绍:上图中算法的核心是第5步和第6步:第5步是对连续的矩阵A,B进行离散化得到离散化后的矩阵。原创 2024-03-23 15:08:07 · 35422 阅读 · 30 评论 -
Diffusion Model, Stable Diffusion, Stable Diffusion XL 详解
常见的生成模型有:文生图模型的基本架构如下:衡量图像生成质量的指标基于上述思想,Denoising diffusion 模型包括两个过程:首先,我们先来介绍一下如何破坏数据分布。如果我们取任何一幅图像(上图a),它具有某种非随机分布。我们不知道这个分布,但我们的目标是破坏它,我们可以通过向其添加噪声来实现。在这个过程的最后,我们应该得到类似于纯噪声的噪声(上图b)。前向扩散过程的每一步被定义为q(xt∣xt−1)=N(xt,1−βtxt−1,βtI)q(x_t|x_{t-1})= \mathcal{N}原创 2024-05-27 19:31:15 · 3394 阅读 · 3 评论 -
DenseCLIP论文讲解
提出背景现有的方法大多数用CLIP预训练模型来解决分类任务,但是很少应用在密集预测的任务上。本文就主要研究如何微调预训练的CLIP模型,使其可以应用于密集预测任务困难挑战与传统的ImageNet预训练模型相比,最大的挑战是上游对比预训练任务和下游逐像素预测任务之间的gap,前者涉及图像和文本的实例级表示,而后者仅基于像素级的视觉信息。解决思路为了解决上述问题,通过隐式和显式地利用来自CLIP的预训练知识,提出了一个语言引导的密集预测框架:DenseCLIP。该框架是模型不可知()且即插即用(原创 2024-05-09 16:52:09 · 1100 阅读 · 0 评论 -
BLIP和BLIP2 论文讲解
通过将Q-Former的输出连接到一个冻结的LLM来执行视觉到语言的生成学习,并训练Q-Former,使其输出的视觉表示可以被LLM解释。ITM是一个二元分类任务,其中模型使用ITM头(线性层)来预测给定图像-文本对的多模态特征是正的(匹配的)还是负的(不匹配的)。它的目的是通过鼓励positive的图像-文本具有相似的表示 (相反,使得negtive的图像文本队具有不同的表示) 来。它们作为软视觉提示(,我们将QFormer (包括冻结图像编码器) 连接到冻结的LLM,以获取LLM的生成语言能力。原创 2024-05-09 10:59:56 · 2325 阅读 · 0 评论 -
CLIP论文讲解和代码实操
研究动机作者的研究动机就是在 NLP 领域利用大规模数据去预训练模型,而且用这种跟下游任务无关的训练方式,NLP 那边取得了非常革命性的成功,比如 GPT-3。作者希望把 NLP 中的这种成功应用到其他领域,如视觉领域。在预训练时 CLIP 使用了对比学习,利用文本的提示去做 zero-shot 迁移学习。在大规模数据集和大模型的双向加持下,CLIP 的性能可以与特定任务的有监督训练出来的模型竞争,同时也有很大的改进空间。CLIP 概述。原创 2024-04-17 14:11:49 · 6615 阅读 · 2 评论