
AIGC算法
文章平均质量分 91
涉及:LLM、多模态大模型、文生图等,持续更新。
优势:将内容统一分为模型、数据、训练、结果维度展开,并结合论文、代码就相关细节进行论述,能够更统一、清晰、详实,便于快速入门和随时对比检索。
排版:专栏目录按照更新顺序,并贴心通过《..论文解读目录》这篇文章进行归类,便于读者阅读。
优惠券已抵扣
余额抵扣
还需支付
¥89.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
TigerZ*
计算机视觉相关。接付费咨询开发。
算法:AIGC、分类、检测、特征、长尾、开集、聚类、传统图像算法。
语言:Python、C & C++。
工具:pytorch、TRT、CUDA、Triton、DeepStream、DALI。
展开
-
VLM 系列——Qwen2.5 VL——论文解读
整体模型架构由三个组件组成:视觉编码器、基于 MLP 的视觉-语言连接层、大型语言模型。引入了动态帧率(FPS)训练和绝对时间编码技术。这样一来,模型不仅能够支持小时级别的超长视频理解,还具备秒级的事件定位能力。原创 2025-03-25 21:05:39 · 64 阅读 · 0 评论 -
AIGC(MLLM、VLM、LLM、SD)系列——论文解读目录
AIGC(MLLM、VLM、LLM、SD)系列,论文解读目录。快速找到你想要的论文。原创 2024-01-08 19:46:45 · 5867 阅读 · 0 评论 -
AIGC系列——论文解读模板
这里主要介绍AIGC系列的行文结构,方便快速判断内容分布,合适大佬、客官们订阅AIGC专栏,节省大把时间,快速定位需要的部分,适合学生、入门AIGC和作为笔记检索使用。原创 2024-01-08 19:32:29 · 643 阅读 · 0 评论 -
VLM (MLLM)系列——论文解读总结
从数据、模型、训练三个角度概述VLM也就是MLLM模型的内容,该综述能够快速对比论文的创新点等,非常适合初学者、学生、在职人员。原创 2024-02-05 19:33:49 · 872 阅读 · 0 评论 -
大模型知识点汇总——模型基础知识
本文主要介绍LLM面试中的模型方面的基础知识点,并且每个知识点做成了一级目录的形式,便于查阅,有任何建议和意见实时修改更新。原创 2024-03-18 19:54:25 · 936 阅读 · 0 评论 -
大模型知识点汇总——分布式训练
本篇在宏观上介绍AIGC、LLM 训练过程中的模型加速相关概念和技术,不做数学推导和过于细节介绍,旨在快速有一个宏观认知,不拘泥在细节上。涉及:混合精度训练、数据并行、张量并行、流水线并行、模型并行、3D并行、混合并行、ZeRO 1、ZeRO 2、ZeRO 3、ZeRO-offload、Megatron、DeepSpeed、PFlash Attention、nvlink、nvswitch、Infiniband。原创 2024-03-25 19:54:33 · 1415 阅读 · 0 评论 -
hugging face 使用教程———快速入门
本篇存在的意义是快速介绍hugging face使用,梳理主要部件,梳理易混淆概念。原因是:目前hugging face的使用,官方放在了3个地方(参考链接部分):使用文档、NLP教程、Transformers git的readme 文件,很多重叠内容比较浪费时间,很容易看懵。等大家有了主要概念再去看需要具体看某个函数或功能。原创 2024-07-24 13:35:03 · 11314 阅读 · 0 评论 -
VLM 系列——Qwen2.5 VL——论文解读——前瞻(源码解读)
与 Qwen2-VL 相比,Qwen2.5-VL 增强了模型 对 空间尺度(动态原图输入&非归一化定位框)和 时间(动态fps和绝对实现编码)的感知能力,并进一步简化了网络结构(ViT 架构与LLMs一致,采用了RMSNorm、SwiGLU 结构,但是是全注意力+窗口注意力交替VIT)以提高模型效率。本文针对源码进行了相关细节的解读和一些注意点。原创 2025-02-18 21:18:24 · 668 阅读 · 0 评论 -
VLM 系列——Qwen2 VL——论文解读
qwen2-vl 是一系列多模态大型语言模型(MLLM),其中包括2B、7B、72B三个版本,整体采用视觉编码器(标准VIT输出后面接patch merger )+ LLM形式。比较创新的是统一视觉处理方式(3D CNN统一视频、图片)+图像缩放方式(自适应缩放)+3D LLM位置编码。能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、多语言、agent、高清图理解(代码编写和debug论文暂时未提)。原创 2024-09-30 16:41:20 · 767 阅读 · 0 评论 -
VLM 系列——Qwen2 VL——论文解读——前瞻(源码解读)
Qwen2 VL 是一系列多模态大型语言模型(MLLM),其中包括2B、7B、72B三个版本,整体采用视觉编码器+LLM形式(可以认为没有任何投射层)。该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、多语言、agent、高清图理解。Qwen2-VL-2B可以轻松地在现代手机上本地进行推理。比较创新的是图像缩放方式+3D LLM位置编码。原创 2024-09-10 17:28:16 · 905 阅读 · 0 评论 -
VLM 系列——phi3.5-Vision——论文解读
是一系列大型语言模型(LLM) & 多模态大型语言模型(MLLM)。其中LLM包括phi-3-mini 3.8B、phi-3-small 7B、phi-3-medium 14B,phi-3-mini可以轻松地在现代手机上本地进行推理;多模态模型包括phi-3-vision(基于phi-3-mini & CLIP ViT-L/14) 4.2B。本文重点介绍多模态的phi-3-mini模型,该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、高清原创 2024-08-29 10:07:05 · 630 阅读 · 1 评论 -
VLM 系列——Mini-Monkey——论文解读
Mini-Monkey 是一个轻量级MLLM(多模态的视觉-文本模型),基于InternViT、MLP和InternLLM,其实就是全套的Intern VL2。在2B参数MLLM中取得了最先进的性能。,模型和训练策略非常高效.创新点:图像的处理方式——多尺度自适应裁剪策略(MSAC)+一种尺度压缩机制(SCM)。Mini-Monkey能够自适应地生成多尺度表示,允许它从不同尺度中选择未被分割的物体,并有效地压缩图像标记。原创 2024-08-29 09:57:59 · 352 阅读 · 0 评论 -
VLM 系列——MiniCPM-Llama3-V 2.6——论文解读——前瞻(源码解读)
MiniCPM-Llama3-V 2.6 是一款面向终端设备的多模态大型语言模型(MLLM),论文暂未发布,它专注于实现在手机等资源受限设备上的高级AI功能,参数8B(qwen2 7B + SigLIP ViT-400m/14 + 视觉标记压缩层)。该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、代码编写和debug、多图问对话、视频理解对话、json格式、高清OCR解析(函数调用论文暂时未提)。本文结合源码,将重点改进和相关技术进行了拆解介绍。原创 2024-08-16 10:09:47 · 765 阅读 · 0 评论 -
LLM 系列——Qwen2——论文解读
Qwen2 是单模态纯文本的大语言模型,开源了一整套基础和指令调优的语言模型,参数范围从5亿到720亿不等,包括密集模型和混合专家模型。可以用于:语言理解、生成、多语言、编码、数学和推理。主要是精召性能提升、数据和长文本处理方面改进,包括数据处理等使用了一些最新的其他论文的思路,模型结构等方面并没有大的改动。原创 2024-07-24 11:20:26 · 860 阅读 · 0 评论 -
VLM 系列——MiniCPM-Llama3-V 2.5——论文解读
MiniCPM-Llama3-V 2.5 是一款面向终端设备的多模态大型语言模型(MLLM),它专注于实现在手机等资源受限设备上的高级AI功能,参数8B(llama3 7B + SigLIP ViT-400m/14 + 视觉标记压缩层)。该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、图文问答等功能。原创 2024-08-09 15:33:15 · 1023 阅读 · 1 评论 -
VLM 系列——InternVL 1.5——论文解读
InternVL 1.5 是一个多模态大模型,主要还是图文问答等,不能完成图像生成、语音输入输出。也是标准的两阶段训练。论文称,InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型,特别是在与 OCR 相关的数据集。主要贡献有三点;更强视觉编码器、支持动态高分辨率、高质量的双语数据集。原创 2024-05-17 10:04:24 · 1031 阅读 · 0 评论 -
VM 系列——AIM——论文解读
是一个纯视觉的预训练模型(没有使用任何的文本标签),仿照LLM GPT的训练思路(解码器,但是是前缀自注意力),将一幅图像分块预测图像的下一块(像素值)。主要作为预训练权重,可以用于图像分类、检索等下游任务。在20亿张图像上预训练70亿参数在ImageNet 1k上使用冻结的主干实现了84.0%精度。发现并验证了和LLM相似的两个性质:(1)视觉特征的性能与模型容量和数据量成正比,(2)目标函数的值与模型在下游任务上的性能相关。原创 2024-03-05 11:45:25 · 324 阅读 · 3 评论 -
VM 系列——SEED-X——论文解读
seed-x 不同于之前的图像文本大模型,主要面向图像问答理解。通过动态分辨率图像编码来处理任意尺寸和宽高比的图像,其作为一个统一的多模态基础模型,通过不同的指令调整,可以在现实世界中作为各种多模态 AI 助手使用,支持图像理解、生成、编辑(在指定图像通过文本指令改变图像内容)和检测等功能。但是一定要注意文章提到,当前不同的功能是不同的独立子模型实现的。原创 2024-05-13 20:02:56 · 516 阅读 · 0 评论 -
VLM 系列——RAM++(recognize anything++)—— 论文详解
本文详细介绍了RAM++ 《Open-Set Image Tagging with Multi-Grained Text Supervision》涉及到的模型结构、数据清洗、训练细节以及对应的消融实验。原创 2023-11-27 18:42:11 · 1624 阅读 · 0 评论 -
VLM 系列——RAM(recognize anything)—— 论文详解
详细介绍了RAM(recognize anything)的模型结构、数据集构成方式、数据清洗方式,以及创新点和使用方法。原创 2023-10-23 14:20:44 · 1288 阅读 · 0 评论 -
VLM 系列——RAM(recognize anything)—— 项目使用——调整阈值(获得置信度)
原始代码并不会输出得分,而是根据各个属性的阈值判别大于阈值(不同的子类不同)的为命中,输出对应的属性。本文详细介绍如何输出得分,并做可视化分析。原创 2023-11-07 14:52:27 · 527 阅读 · 0 评论 -
VLM 系列——Object Recognition as Next Token Prediction——论文解读
本文主要介绍《Object Recognition as Next Token Prediction》:结合了CLIP 的视觉编码器+语言模型Llama 的部分参数,将常见的图片描述任务转变为只输出属性,换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的top K属性(英文),用于开放域的图片Tag 场景。原创 2024-01-08 19:55:03 · 1508 阅读 · 0 评论 -
VLM 系列——COGVLM—— 论文解读
COGVLM是一个多模态的视觉-文本模型,当前CogVLM-17B(20231130)可以完成对一幅图片进行描述、图中物体或指定输出检测框、相关事物进行问答,但是这个版本只支持一个图片(为且必为首次输入),只支持英文,几乎不支持写代码(目前测试是的)。模型分四个部分:视觉编码器、MLP适应层(对齐视觉和文本特征)、文本解码器、视觉专家模块。在不损害NLP模型原本能力的情况下,通过“视觉专家”模块 + 两层的MLP adapter 替代浅层的对齐大幅提升了模型的图片描述、视觉问答和视觉定位能力。原创 2024-01-25 20:21:49 · 1132 阅读 · 0 评论 -
VLM 系列——Monkey——论文解读
Monkey,是一个多模态的视觉-文本模型,当前版本(20231130)为基于Qwen-vl 的三阶段微调(增加了Lora+visual adapter 支持更高的分辨率)可以完成对一幅图片进行描述(强项,更细节)、相关事物(文本)进行问答(强项,尤其文本),但是这个版本只支持一个图片(为且必为首次输入),几乎不支持写代码(目前测试是的),图中物体或指定输出检测框仍然保留的能力,但是弱了。提出使用Lora 微调已有Qwen-vl 视觉编码器(有多个,看下文的模型结构),加visual adapter 将多个原创 2024-01-28 15:09:58 · 876 阅读 · 0 评论 -
VLM 系列——Qwen-VL 千问—— 论文解读
Qwen-VL表示多任务训练后的模型,Qwen-VL-chat是基于Qwen-VL的指令调优(第三阶段SFT——监督微调)后的视觉语言聊天机器人。原创 2024-01-28 16:25:12 · 2847 阅读 · 0 评论 -
VLM 系列——LLaVA-MoLE——论文解读
整体基于Llava1.5,主要变化在于LLM增加了moe+lora模块,进行了两阶段训练(冻结图像编码器、投射层、文本编码器,只训练Lora和moe)。具体结构包含:基于CLIP的视觉编码器,文本解码器(attention层添加Lora,FFN层添加Lora版的MOE),使用最简单的两层FC构成MLP映射视觉特征到文本长度。原创 2024-02-06 18:23:27 · 810 阅读 · 0 评论 -
VLM 系列——MoE-LLaVa——论文解读
一、概述一、概述1、是什么moe-Llava 是Llava1.5 的改进 全称《MoE-LLaVA: Mixture of Experts for Large Vision-Language Models》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述),未知是否能偶根据图片写代码(HTML、JS、CSS)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。原创 2024-02-05 19:56:27 · 893 阅读 · 0 评论 -
VLM 系列——Llava1.6——论文解读
Llava1.6基于CLIP的视觉编码器,以及多个版本语言解码器,使用最简单的两层FC构成MLP映射视觉特征到文本长度,构建了一个大规模的多模态模型,并且将该模型在指令视觉-语言数据上进行了微调。最大的区别是仿照monkey这篇论文也将图片分割成几个部分然后拼接送入LLM,不同是他们有使用query这种降维方式。原创 2024-02-05 19:39:04 · 1485 阅读 · 0 评论 -
VLM 系列——Llava1.5——论文解读
Llava1.5 ,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答、根据图片写代码,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。本文基于CLIP的视觉编码器,以及LLaMa语言解码器,使用最简单的两层FC构成MLP(llava是一层)映射视觉特征到文本长度,构建了一个大规模的多模态模型,并且将该模型在指令视觉-语言数据上进行了微调(数据集更丰富),并且通过增加特定指令来解决简单回答指令的跟随性。原创 2024-01-28 15:53:13 · 1076 阅读 · 0 评论 -
VLM 系列——Llava——论文解读
Llava 全称《Visual Instruction Tuning》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答、根据图片写代码(HTML、JS、CSS),潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。 本文基于CLIP的视觉编码器,以及LLaMa语言解码器,构建了一个大规模的多模态模型(使用最简单的单层FC映射视觉特征到文本长度),并且将该模型在指令视觉-语言数据上进行了微调。原创 2024-01-28 15:35:51 · 1282 阅读 · 0 评论 -
VLM 系列——Instruct BLIP——论文解读
本文主要介绍Instruct BLIP,是一个多模态视觉-文本大语言模型,隶属BLIP系列第三篇,可以完成:图像描述、视觉问答、名画名人等识别(问答、描述)。支持单幅图片输入(作为第一个输入),多轮文本对话。(不支持图文交错输入、写代码、视觉定位、JSON mode等。)构造一个指令数据集,整体架构沿用BLIP2,在Q-former中多加入了文本prompt token来和图片进行交互。只训练q-former,在多个数据集上的zero-shot获得sota.原创 2024-01-22 19:53:07 · 680 阅读 · 0 评论 -
VLM 系列——BLIP2——论文解读
BLIP2是一个多模态视觉-文本大语言模型,隶属BLIP系列第二篇,可以完成:图像描述、视觉问答、名画名人等识别(问答、描述)。支持单幅图片输入(作为第一个输入),多轮文本对话。使用冻结的图像编码器、LLM外加一个Q-former,分两阶段来pre-train模型,例图解决训练成本高和模型灾难遗忘的问题。在多个数据集上的zero-shot 和finetune取得很好的效果。原创 2024-01-25 19:54:19 · 973 阅读 · 0 评论 -
VLM 系列——BLIP——论文解读
BLIP是一个多模态视觉-文本大语言模型,隶属BLIP系列第一篇,可以完成:图像描述、视觉问答、图像检索。由于没有接入LLM,所以虽然可以做生成任务,但是没有很强的对话能力以及世界知识。主要是模型和数据两方面创新:模型方面:把模型设计成了一个unified 框架,可以同时满足:图文检索和图像描述任务。主要有三部分构成:视觉编码器、文本编码器和多模态编码器。数据方面:提出了一个Captioner和Filter 模块,Captioner对一张图生成描述(也就是图文对的文)、filter过滤噪声图文对。用这种数据原创 2024-01-28 09:52:46 · 465 阅读 · 0 评论 -
VLM 系列——中文CLIP——论文解读
CLIP 的中文版,训练使用2亿 图-文 对的分两阶段训练的对比学习(不是LLM的预测下一个token),是一个双塔模型(图像和文本各子拥有一个编码器)。由于对齐了图像和文本特征,可以用来做:图-图(文章中没有相关测试任务)、图-文、文-图、文-文(文章中没有相关测试任务)的检索,当然 图-文 和 文-图 检索 也可以转化为zero-shot 的分类。原创 2024-01-23 20:19:10 · 682 阅读 · 0 评论 -
VLM 系列——CLIP——论文解读
是使用图文对(将图像表征与语言联系起来)使用对比学习(有的文章称为自监督,有的文章称为无监督)训练的多模态模型。从互联网上大量文本的监督(自然语言监督)中学习,要比传统的分类数据要大得多。可以用来图片zero-shot 分类(其实就是图-文检索,但是不同于以往的ImageNet预测一组固定的预定对象类别),文-图检索,图-图检索(文章没有提及,也没有测试);还有后面的整个AIGC 都有他的影子,比如Stable diffusion 的图像编码器、BLIP系列的图像编码都是使用的CLIP系列的预训练权重。原创 2024-01-22 20:09:42 · 694 阅读 · 0 评论 -
文生图——DALL-E 3 —论文解读——第一版
本文主要是DALL·E 3官方第一版技术报告(论文)的解读。 一句话省流版,数据方面,训练时使用95%模型(CoCa)合成详细描述caption + 5%原本人类 caption,测试时使用GPT-4v 扩写人类caption;模型方面使用T5xxl + vae encoder + diffusion latent + 自家decoder 取得最好效果。原创 2023-10-25 10:08:08 · 2234 阅读 · 0 评论 -
目标检测算法——YOLO-Word——算法详解
本文主要介绍YOLO-word 算法,从思路和数据角度去梳理输出文章的创新点,整体而言CLIP 文本embedding的引入以及大规模数据的加入,赋予了模型识别开集其余类目的能力。原创 2024-04-19 20:14:17 · 2280 阅读 · 0 评论 -
LLM 系列——BERT——论文解读
BERT是单模态“小”语言模型,是一个“Bidirectional Encoder Representations fromTransformers”的缩写,是一个语言预训练模型,通过随机掩盖一些词,然后预测这些被遮盖的词来训练双向语言模型(编码器结构)。可以用于句子分类、词性分类等下游任务,本身旨在提供一个预训练的基础权重。原创 2024-02-28 20:17:25 · 1445 阅读 · 1 评论 -
OpenAI 开发者大会2023 解读
本文主要介绍OpenAI 2023 开发者大会 的新技术,涉及GPT-4的升级点,GPTs的使用方法,相关工具如代码解释器、检索、函数调用的解读。原创 2023-11-16 18:16:20 · 801 阅读 · 0 评论