
大模型系列
文章平均质量分 95
本专栏旨在跟踪AI技术发展趋势,记录了经典大模型原理及其可应用场景,可作为技术调研、领域入门参考资料。
kabuto_hui
渡己亦渡人
展开
-
【大模型系列】CogAgent(2024.12)
值得注意的是,在给定相同的截图、用户指令、历史操作的情况下,可能会有多个正确的输入,例如点击“发送”按钮和按下回车键都可以发送消息。高分辨率的图像编码参与到visual language decoder的过程中,在每层MSA(Multi-Self-Attention)层之后,再添加一个cross-attn层,原MSA的输出作为q,高分辨率的图像编码作为k-v,参与运算,最后cross-attn的输出维度与原MSA的输出维度保持一致。不过对于复杂的任务,或者打开一个冷门没见过的应用就不太行了。原创 2025-01-11 16:48:44 · 745 阅读 · 1 评论 -
【大模型系列】Mobile-Agent(2024.04)
文本检测模型:文本定位,OCR toolsOCR没有检测到指定文本:agent重新选择文本或者选择替代操作OCR检测到一个包含指定文本的实例:直接点击文本框的中心OCR检测到多个包含指定文本的实例:如果检测到的实例特别多,则需要重新选择文本实例;如果实例数量比较少,根据检测据区域外扩后截图,再将检测框画在截图上,最后让agent决策点击哪一个图标检测模型:图标定位,icon检测工具+CLIP;首先让agent提供需要点击的icon的属性(颜色和形状),原创 2025-01-02 22:27:54 · 1036 阅读 · 0 评论 -
【大模型系列】MultiUI(2024.11)
先基于text-based LLMs获取网页的accessibility tree(辅助功能树,),然后再与网页截图一起作为多模态数据,训练多模态模型。公开了MultiUI数据集,从1M网页中收集了7.3M的样本,包含多种UI任务(3类,9种任务)和界面。原创 2025-01-02 22:19:34 · 1014 阅读 · 0 评论 -
【大模型系列】Grounded-VideoLLM(2024.10)
针对长视频,均有抽取96帧还是否有效?关键帧选取每个片段的中间帧是否合理?理想情况下每个片段场景应该类似,但是实际中,每个片段可能出现不同的镜头拍摄角度。以关键帧作为间隔来分割会更合理但是会出现不均匀分割的现象。原创 2024-11-07 22:15:48 · 1338 阅读 · 0 评论 -
【大模型系列】Video-XL(2024.10)
提出了一个Video-XL模型,可以有效地对小时级别的视频进行理解,在A100-80G GPU上可以处理2024帧,大海捞针任务(Needle-in-haystack)中取得100%的准确率;引入一个长视频数据集(2min~10min)VICO(Visual Clue Ordering)原创 2024-11-07 22:08:45 · 1053 阅读 · 0 评论 -
【大模型系列】Mini-InternVL(2024.10)
核心1:通过蒸馏的方式得到Visual encoder(InternViT-6B -> InternViT-300M),与InternVL2-76B对比,mini-InternVL-4B仅用5%参数实现90%的性能核心2:提出一个迁移到不同下游任务学习框架。原创 2024-10-28 22:57:38 · 1099 阅读 · 0 评论 -
【大模型系列】mPLUG-Owl3(2024.08)
增强了处理长图片序列的能力提出了一种hyper attention blocks,有效地将视觉和余元集中到一个共同的由语言引导的语义空间提出了一个长视觉序列评估基准:Distractor Resistance核心创新点:visual feature不直接作为LLM的输入,而是在LLM中间几层参与计算,再与文本特征融合到一起,因此不会因为输入的图片多而导致超出LLM的最大输入限制。mPLUG-Owl指标层面一般,与Qwen2VL-7B还有一定的差距。原创 2024-10-28 22:36:55 · 1007 阅读 · 0 评论 -
【大模型系列】Qwen2-VL(2024.10)
Qwen团队开源了Qwen2-VL系列模型,支持多语言图像文本理解、代码/数学推理、视频分析、实时聊天、代理等。支持动态分辨率输入,并在训练过程中引入了2D-RoPE,从而使模型更好的捕获不同空间尺度的信息;开发了M-RoPE,使用单独的组件来表示时间和空间信息,使模型可以更自然的理解动态内容如视频或者流数据;ModelLMM675M1.5B最高效的模型,专为在设备上运行而设计。它可以为资源有限的大多数场景提供足够的性能。675M7.6B。原创 2024-10-15 23:00:12 · 2836 阅读 · 0 评论 -
【大模型系列】PLLaVA(2024.04)
在空间维度上进行池化会产生有益的效果,而在时间维度上进行池化则会产生性能下降。原创 2024-08-24 13:10:57 · 1037 阅读 · 0 评论 -
【大模型系列】Flash-VStream(2024.06)
Flash-VStream是由来自于清华和字节的研究团队开发的一个视频问答模型(VideoQA)通过设计一种名为STAR的内存机制来实现在有限计算资源的前提下,能处理极长的视频流;开源了一个新的VideoQA Benchmark:VStream-QA Benchmark空间记忆容纳短期使用的最新的且详细的空间信息,并以FIFO队列的形式实现。原创 2024-08-24 12:46:03 · 1316 阅读 · 0 评论 -
【大模型系列】LanguageBind(ICLR2024.01)
LanguageBind是北大袁粒团队提出的一个多模态语义对其的方法,通过将各种模态(图像、视频、红外、音频、深度)映射到一个共享的特征空间,与文本实现对齐。同时该论文还开源了一个VIDAL-10M的数据集,包含多种模态(≥3)的数据。原创 2024-08-04 20:34:24 · 1411 阅读 · 0 评论 -
【大模型系列】Video-LaVIT(2024.06)
Video-LaViT是LaViT这篇工作的拓展,详见上一篇博客【大模型系列】Language-Vision Transformer(LaVIT, ICLR2024),作者同样来自于北大和快手。思路与LaViT类似,通过将视频分解为交替的关键帧和运动向量,关键帧采用LaViT中的Image tokenizer,运动向量则设计了一个Motion tokenizer来进行编码。然后通过[IMG]、[/IMG]和[MOV]、[/MOV]来区分。原创 2024-07-30 22:49:07 · 1153 阅读 · 0 评论 -
【大模型系列】Language-Vision Transformer(LaVIT, ICLR2024)
LaVIT是Language-VisionTransformer的简称,作者来自于北大和快手科技。文章提出了一种将图片tokenization的方式,使图片可以与language一样,可以用一组token来表示,这样图片就可以跟language的token合并在一起作为LLM的输入,通过自回归的方式来训练网络,相当于统一了视觉和文本两种模态的输入,其中图片的token前后通过两个特殊的token[IMG]和[/IMG]来与文本的token区分。所以文章的重点就在于如何将图片tokenization。原创 2024-06-30 17:17:12 · 1150 阅读 · 0 评论 -
【大模型系列】大模型评价指标总结
参考资料:BLEU (BiLingual Evaluation Understudy) 是一种评估机器翻译文本的指标,但也可用于评估生成文本的质量,通过比较机器生成的文本和人类生成的参考文本的重叠程度。BLEU 得分是一个 0 到 1 之间的数字,用于衡量机器翻译文本与一组高质量参考翻译的相似度。0 表示机器翻译的输出与参考翻译没有重叠(低质量),而 1 表示其与参考翻译完全重叠(高质量)。定义如下:BLEU=∏i4min(1,exp(1−reference-lengthoutput-length))⏟原创 2024-04-20 17:26:26 · 12945 阅读 · 0 评论 -
【大模型系列】一文看懂SAM大模型
参考资料:SAM模型大致上分成3个模块,一个标准的vit构成的image encoder、一个prompt encoder和一个mask decoder。其中:从结构上看,sam的encoder部分就是堆叠transformer的block结构,最后再跟一个neck,调整输出embedding的维度。Meta开源了三个模型,分别是vit_h, vit_l和vit_b,这三个模型的区别仅仅在于内部patch embedding维度、transformer的block的个数以及每个block中head的数量和全原创 2024-03-23 10:56:20 · 24081 阅读 · 20 评论 -
【大模型系列】问答理解定位(Qwen-VL/Llama2/GPT)
在模型解码过程中,模型是根据前一个结果继续预测后边的,依次推理,此时为了生成完整的句子,需要融合多个step的输出,目标就是使得输出序列的每一步的条件概率相乘最大。在第二步,A和C作为输入,继续预测,则有10个可能得结果,然后再取其中最大的2个,作为输入,进行第三步,取结果中概率最大的2个,得到2个结果,然后再在2个结果中取最优的一个作为输出。对于下图的上半部分,对于2048之后的位置超出了训练2048的长度,模型推理时,该部分很可能就随机乱猜了,导致生成的结果不好。,是decoder-only的模型。原创 2024-03-16 12:21:16 · 3095 阅读 · 2 评论 -
【大模型系列】统一图文理解与生成(BLIP/BLIPv2/InstructBLIP)
问题一:目前VLP(Vision-Language Pre-training)数据大多来自于网络爬取,如CLIP。其中的caption包含很多噪声,不是一个理想的监督来源;问题二:在以往的VLP框架中,仅在理解任务或者生成任务方面表现出色,很少有可以兼顾的模型。针对问题一:提出一种bootstrapping caption的方案来“提纯”带噪声的网络爬取数据,从而提升多模态模型的能力;针对问题二:提出一种新的VLP框架BLIP统一视觉语言理解和生成任务,比现有的方法更适应广泛的下游任务;原创 2024-03-16 11:01:14 · 3934 阅读 · 0 评论 -
【大模型系列】图片生成(DDPM/VAE/StableDiffusion/ControlNet/LoRA)
ControlNet 是一个任务相关的端到端方法,即对于每一种控制类型都要训练一个特定的 ControlNet 支持, 比如线图控制、深度图控制、姿态控制等等。这样有好处也有坏处, 单独看一个场景,拥有使用简单、训练成本低等优点。但是,如果面对一个复杂场景(多场景),反而变得略麻烦,每一个细分场景都要训练和维护一个模型, 成本高昂,也不易用。LoRA与Adapter的区别:adapter是在模块的后面接上一个mlp,对模块的计算结果进行一个后处理。原创 2024-03-14 23:38:53 · 2945 阅读 · 0 评论 -
【大模型系列】图文对齐(CLIP/TinyCLIP/GLIP)
给定待编辑的真实图像,我们首先使用StyleGAN inversion方法得到其隐编码,然后我们的头发映射器根据隐编码和条件输入(发型条件、发色条件)预测隐编码相应的变化,最后修改后的隐编码将被送入StyleGAN产生对应的头发编辑后的图像。分成G个阶段进行,每个阶段在前Lm step里做亲和蒸馏和继承训练(根据step更新当前稀疏度p,然后计算亲和力蒸馏损失,然后当前稀疏度p和目标稀疏q计算稀疏损失,然后更新mask和权重),然后将不重要权重移除,Lm后续的训练用亲和训练。原创 2024-03-09 14:10:29 · 5925 阅读 · 0 评论 -
【大模型系列】根据文本检索目标(DINO/DINOv2/GroundingDINO)
DINO 中最核心的数据采样策略便是图像裁剪,这也是自监督学习领域应用非常广泛的主策略之一。原创 2024-03-09 17:45:14 · 10368 阅读 · 5 评论