TigerZ*-优快云博客

原创 VLM 系列——Qwen2.5 VL——论文解读

整体模型架构由三个组件组成：视觉编码器、基于 MLP 的视觉-语言连接层、大型语言模型。引入了动态帧率（FPS）训练和绝对时间编码技术。这样一来，模型不仅能够支持小时级别的超长视频理解，还具备秒级的事件定位能力。

2025-03-25 21:05:39 59

原创 VLM 系列——Qwen2.5 VL——论文解读——前瞻（源码解读）

与 Qwen2-VL 相比，Qwen2.5-VL 增强了模型对空间尺度（动态原图输入&非归一化定位框）和时间（动态fps和绝对实现编码）的感知能力，并进一步简化了网络结构（ViT 架构与LLMs一致，采用了RMSNorm、SwiGLU 结构，但是是全注意力+窗口注意力交替VIT）以提高模型效率。本文针对源码进行了相关细节的解读和一些注意点。

2025-02-18 21:18:24 657

原创目标检测算法——YOLOV11 快速使用教程

主要记录使用NVIDIA GPU + pytorch + 检测系列模型的快速使用方式(包括：训练、测试、导出、量化)，可以快速解决一些工业应用的问题，比如：无网、数据大需要改路径、需要记录不同实验结果等问题。

2024-12-06 18:44:00 3941 2

原创卸载Python

介绍Linux 如何干净卸载Python

2024-10-16 13:48:44 782

其实到了YOLOV5 基本创新点就不太多了，主要就是大家互相排列组合复用不同的网络模块、损失函数和样本匹配策略, V11支持多种视觉任务：物体检测、实例分割、图像分类、姿态估计和定向物体检测（OBB）。对比YOLOV8主要涉及到： *backbone 中的使用C2f模块变为 c3k2 模块。 *backbone 中的最后一层（sppf层）后增加了C2PSA模块。 *head 解耦头中的分类检测头两个Conv 变为 DWConv。

2024-10-16 13:44:52 23534 4

原创 onnx TRT 版本对应关系

主要介绍onnx version、opset、onnx runtime、TensorRT 对应关系

2024-09-30 16:55:52 640

原创 VLM 系列——Qwen2 VL——论文解读

qwen2-vl 是一系列多模态大型语言模型（MLLM），其中包括2B、7B、72B三个版本，整体采用视觉编码器（标准VIT输出后面接patch merger ）+ LLM形式。比较创新的是统一视觉处理方式（3D CNN统一视频、图片）+图像缩放方式（自适应缩放）+3D LLM位置编码。能够处理包括文本、图像在内的多种数据类型，具备图片描述、单图文问答、多图问对话、视频理解对话、json格式、多语言、agent、高清图理解（代码编写和debug论文暂时未提）。

2024-09-30 16:41:20 765

原创 VLM 系列——Qwen2 VL——论文解读——前瞻（源码解读）

Qwen2 VL 是一系列多模态大型语言模型（MLLM），其中包括2B、7B、72B三个版本，整体采用视觉编码器+LLM形式（可以认为没有任何投射层）。该模型能够处理包括文本、图像在内的多种数据类型，具备图片描述、单图文问答、多图问对话、视频理解对话、json格式、多语言、agent、高清图理解。Qwen2-VL-2B可以轻松地在现代手机上本地进行推理。比较创新的是图像缩放方式+3D LLM位置编码。

2024-09-10 17:28:16 902

原创 VLM 系列——phi3.5-Vision——论文解读

是一系列大型语言模型（LLM） & 多模态大型语言模型（MLLM）。其中LLM包括phi-3-mini 3.8B、phi-3-small 7B、phi-3-medium 14B，phi-3-mini可以轻松地在现代手机上本地进行推理；多模态模型包括phi-3-vision（基于phi-3-mini & CLIP ViT-L/14） 4.2B。本文重点介绍多模态的phi-3-mini模型，该模型能够处理包括文本、图像在内的多种数据类型，具备图片描述、单图文问答、多图问对话、视频理解对话、json格式、高清

2024-08-29 10:07:05 629 1

原创 VLM 系列——Mini-Monkey——论文解读

Mini-Monkey 是一个轻量级MLLM（多模态的视觉-文本模型），基于InternViT、MLP和InternLLM，其实就是全套的Intern VL2。在2B参数MLLM中取得了最先进的性能。,模型和训练策略非常高效.创新点：图像的处理方式——多尺度自适应裁剪策略（MSAC）+一种尺度压缩机制（SCM）。Mini-Monkey能够自适应地生成多尺度表示，允许它从不同尺度中选择未被分割的物体，并有效地压缩图像标记。

2024-08-29 09:57:59 351

原创 VLM 系列——MiniCPM-Llama3-V 2.6——论文解读——前瞻（源码解读）

MiniCPM-Llama3-V 2.6 是一款面向终端设备的多模态大型语言模型（MLLM），论文暂未发布，它专注于实现在手机等资源受限设备上的高级AI功能，参数8B（qwen2 7B + SigLIP ViT-400m/14 + 视觉标记压缩层）。该模型能够处理包括文本、图像在内的多种数据类型，具备图片描述、单图文问答、代码编写和debug、多图问对话、视频理解对话、json格式、高清OCR解析（函数调用论文暂时未提）。本文结合源码，将重点改进和相关技术进行了拆解介绍。

2024-08-16 10:09:47 763 1

原创模型量化——NVIDIA——QAT

本文讲解如何使用QAT进行量化，并针对YOLO系列进行了代码演示，开箱即用量化YOLO v5、YOLO V8 等热门的检测模型，增强自己的竞争力，强力推荐吆。

2024-08-09 17:43:47 383

原创 VLM 系列——MiniCPM-Llama3-V 2.5——论文解读

MiniCPM-Llama3-V 2.5 是一款面向终端设备的多模态大型语言模型（MLLM），它专注于实现在手机等资源受限设备上的高级AI功能，参数8B（llama3 7B + SigLIP ViT-400m/14 + 视觉标记压缩层）。该模型能够处理包括文本、图像在内的多种数据类型，具备图片描述、图文问答等功能。

2024-08-09 15:33:15 1019 2

原创 hugging face 使用教程———快速入门

本篇存在的意义是快速介绍hugging face使用，梳理主要部件，梳理易混淆概念。原因是：目前hugging face的使用，官方放在了3个地方（参考链接部分）：使用文档、NLP教程、Transformers git的readme 文件，很多重叠内容比较浪费时间，很容易看懵。等大家有了主要概念再去看需要具体看某个函数或功能。

2024-07-24 13:35:03 11233

原创 LLM 系列——Qwen2——论文解读

Qwen2 是单模态纯文本的大语言模型，开源了一整套基础和指令调优的语言模型，参数范围从5亿到720亿不等，包括密集模型和混合专家模型。可以用于：语言理解、生成、多语言、编码、数学和推理。主要是精召性能提升、数据和长文本处理方面改进，包括数据处理等使用了一些最新的其他论文的思路，模型结构等方面并没有大的改动。

2024-07-24 11:20:26 857

原创视频分类——C3D使用

文章介绍了视频分类模型和开源代码的使用。

2024-05-21 18:38:40 940 1

原创 VLM 系列——InternVL 1.5——论文解读

InternVL 1.5 是一个多模态大模型，主要还是图文问答等，不能完成图像生成、语音输入输出。也是标准的两阶段训练。论文称，InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型，特别是在与 OCR 相关的数据集。主要贡献有三点;更强视觉编码器、支持动态高分辨率、高质量的双语数据集。

2024-05-17 10:04:24 1030

原创 VM 系列——SEED-X——论文解读

seed-x 不同于之前的图像文本大模型，主要面向图像问答理解。通过动态分辨率图像编码来处理任意尺寸和宽高比的图像，其作为一个统一的多模态基础模型，通过不同的指令调整，可以在现实世界中作为各种多模态 AI 助手使用，支持图像理解、生成、编辑（在指定图像通过文本指令改变图像内容）和检测等功能。但是一定要注意文章提到，当前不同的功能是不同的独立子模型实现的。

2024-05-13 20:02:56 516

原创目标检测算法——YOLO-Word——算法详解

本文主要介绍YOLO-word 算法，从思路和数据角度去梳理输出文章的创新点，整体而言CLIP 文本embedding的引入以及大规模数据的加入，赋予了模型识别开集其余类目的能力。

2024-04-19 20:14:17 2272

原创目标检测算法——YOLOV9——算法详解

本文主要介绍了YOLOV9 算法的原理，并结合官方git 源码和其他人员的一些issue，更深层的尝试去探讨论文具体实现时的一些疑问。

2024-04-16 19:45:36 3561 7

原创模型量化——NVIDIA——方案选择(PTQ、 partialPTQ、 QAT)

本文主要介绍NVIDIA 模型量化方案的选型思路（主要有三种：PTQ、 partialPTQ、 QAT）。并且对其中涉及的知识点进行了提炼总结。

2024-04-09 19:51:03 704 1

原创大模型知识点汇总——分布式训练

本篇在宏观上介绍AIGC、LLM 训练过程中的模型加速相关概念和技术，不做数学推导和过于细节介绍，旨在快速有一个宏观认知，不拘泥在细节上。涉及：混合精度训练、数据并行、张量并行、流水线并行、模型并行、3D并行、混合并行、ZeRO 1、ZeRO 2、ZeRO 3、ZeRO-offload、Megatron、DeepSpeed、PFlash Attention、nvlink、nvswitch、Infiniband。

2024-03-25 19:54:33 1412

原创大模型知识点汇总——模型基础知识

本文主要介绍LLM面试中的模型方面的基础知识点，并且每个知识点做成了一级目录的形式，便于查阅，有任何建议和意见实时修改更新。

2024-03-18 19:54:25 932

原创 VM 系列——AIM——论文解读

是一个纯视觉的预训练模型（没有使用任何的文本标签），仿照LLM GPT的训练思路（解码器，但是是前缀自注意力），将一幅图像分块预测图像的下一块（像素值）。主要作为预训练权重，可以用于图像分类、检索等下游任务。在20亿张图像上预训练70亿参数在ImageNet 1k上使用冻结的主干实现了84.0%精度。发现并验证了和LLM相似的两个性质：（1）视觉特征的性能与模型容量和数据量成正比，（2）目标函数的值与模型在下游任务上的性能相关。

2024-03-05 11:45:25 324 3

原创 LLM 系列——BERT——论文解读

BERT是单模态“小”语言模型，是一个“Bidirectional Encoder Representations fromTransformers”的缩写，是一个语言预训练模型，通过随机掩盖一些词，然后预测这些被遮盖的词来训练双向语言模型（编码器结构）。可以用于句子分类、词性分类等下游任务，本身旨在提供一个预训练的基础权重。

2024-02-28 20:17:25 1440 1

原创 VLM 系列——LLaVA-MoLE——论文解读

整体基于Llava1.5，主要变化在于LLM增加了moe+lora模块，进行了两阶段训练（冻结图像编码器、投射层、文本编码器，只训练Lora和moe）。具体结构包含：基于CLIP的视觉编码器，文本解码器（attention层添加Lora，FFN层添加Lora版的MOE），使用最简单的两层FC构成MLP映射视觉特征到文本长度。

2024-02-06 18:23:27 810

原创 VLM 系列——MoE-LLaVa——论文解读

一、概述一、概述1、是什么moe-Llava 是Llava1.5 的改进全称《MoE-LLaVA: Mixture of Experts for Large Vision-Language Models》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答，潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述），未知是否能偶根据图片写代码（HTML、JS、CSS）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。

2024-02-05 19:56:27 893

原创 VLM 系列——Llava1.6——论文解读

Llava1.6基于CLIP的视觉编码器，以及多个版本语言解码器，使用最简单的两层FC构成MLP映射视觉特征到文本长度，构建了一个大规模的多模态模型，并且将该模型在指令视觉-语言数据上进行了微调。最大的区别是仿照monkey这篇论文也将图片分割成几个部分然后拼接送入LLM，不同是他们有使用query这种降维方式。

2024-02-05 19:39:04 1484

原创 VLM （MLLM）系列——论文解读总结

从数据、模型、训练三个角度概述VLM也就是MLLM模型的内容，该综述能够快速对比论文的创新点等，非常适合初学者、学生、在职人员。

2024-02-05 19:33:49 867

原创 VLM 系列——Qwen-VL 千问—— 论文解读

Qwen-VL表示多任务训练后的模型，Qwen-VL-chat是基于Qwen-VL的指令调优（第三阶段SFT——监督微调）后的视觉语言聊天机器人。

2024-01-28 16:25:12 2842

原创 VLM 系列——Llava1.5——论文解读

Llava1.5 ，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码，潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。本文基于CLIP的视觉编码器，以及LLaMa语言解码器，使用最简单的两层FC构成MLP（llava是一层）映射视觉特征到文本长度，构建了一个大规模的多模态模型，并且将该模型在指令视觉-语言数据上进行了微调（数据集更丰富），并且通过增加特定指令来解决简单回答指令的跟随性。

2024-01-28 15:53:13 1075

原创 VLM 系列——Llava——论文解读

Llava 全称《Visual Instruction Tuning》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。本文基于CLIP的视觉编码器，以及LLaMa语言解码器，构建了一个大规模的多模态模型（使用最简单的单层FC映射视觉特征到文本长度），并且将该模型在指令视觉-语言数据上进行了微调。

2024-01-28 15:35:51 1281

原创 VLM 系列——Monkey——论文解读

Monkey，是一个多模态的视觉-文本模型，当前版本（20231130）为基于Qwen-vl 的三阶段微调（增加了Lora+visual adapter 支持更高的分辨率）可以完成对一幅图片进行描述（强项，更细节）、相关事物（文本）进行问答（强项，尤其文本），但是这个版本只支持一个图片（为且必为首次输入），几乎不支持写代码（目前测试是的），图中物体或指定输出检测框仍然保留的能力，但是弱了。提出使用Lora 微调已有Qwen-vl 视觉编码器（有多个，看下文的模型结构），加visual adapter 将多个

2024-01-28 15:09:58 873

原创 VLM 系列——BLIP——论文解读

BLIP是一个多模态视觉-文本大语言模型，隶属BLIP系列第一篇，可以完成：图像描述、视觉问答、图像检索。由于没有接入LLM，所以虽然可以做生成任务，但是没有很强的对话能力以及世界知识。主要是模型和数据两方面创新：模型方面：把模型设计成了一个unified 框架，可以同时满足：图文检索和图像描述任务。主要有三部分构成：视觉编码器、文本编码器和多模态编码器。数据方面：提出了一个Captioner和Filter 模块，Captioner对一张图生成描述（也就是图文对的文）、filter过滤噪声图文对。用这种数据

2024-01-28 09:52:46 464

原创 VLM 系列——COGVLM—— 论文解读

COGVLM是一个多模态的视觉-文本模型，当前CogVLM-17B（20231130）可以完成对一幅图片进行描述、图中物体或指定输出检测框、相关事物进行问答，但是这个版本只支持一个图片（为且必为首次输入），只支持英文，几乎不支持写代码（目前测试是的）。模型分四个部分：视觉编码器、MLP适应层（对齐视觉和文本特征）、文本解码器、视觉专家模块。在不损害NLP模型原本能力的情况下，通过“视觉专家”模块 + 两层的MLP adapter 替代浅层的对齐大幅提升了模型的图片描述、视觉问答和视觉定位能力。

2024-01-25 20:21:49 1132

原创 VLM 系列——BLIP2——论文解读

BLIP2是一个多模态视觉-文本大语言模型，隶属BLIP系列第二篇，可以完成：图像描述、视觉问答、名画名人等识别（问答、描述）。支持单幅图片输入（作为第一个输入），多轮文本对话。使用冻结的图像编码器、LLM外加一个Q-former，分两阶段来pre-train模型，例图解决训练成本高和模型灾难遗忘的问题。在多个数据集上的zero-shot 和finetune取得很好的效果。

2024-01-25 19:54:19 969 1

原创 VLM 系列——中文CLIP——论文解读

CLIP 的中文版，训练使用2亿图-文对的分两阶段训练的对比学习（不是LLM的预测下一个token），是一个双塔模型（图像和文本各子拥有一个编码器）。由于对齐了图像和文本特征，可以用来做：图-图（文章中没有相关测试任务）、图-文、文-图、文-文（文章中没有相关测试任务）的检索，当然图-文和文-图检索也可以转化为zero-shot 的分类。

2024-01-23 20:19:10 681

原创 VLM 系列——CLIP——论文解读

是使用图文对（将图像表征与语言联系起来）使用对比学习（有的文章称为自监督，有的文章称为无监督）训练的多模态模型。从互联网上大量文本的监督（自然语言监督）中学习，要比传统的分类数据要大得多。可以用来图片zero-shot 分类（其实就是图-文检索，但是不同于以往的ImageNet预测一组固定的预定对象类别），文-图检索，图-图检索（文章没有提及，也没有测试）；还有后面的整个AIGC 都有他的影子，比如Stable diffusion 的图像编码器、BLIP系列的图像编码都是使用的CLIP系列的预训练权重。

2024-01-22 20:09:42 692

原创 VLM 系列——Instruct BLIP——论文解读

本文主要介绍Instruct BLIP,是一个多模态视觉-文本大语言模型，隶属BLIP系列第三篇，可以完成：图像描述、视觉问答、名画名人等识别（问答、描述）。支持单幅图片输入（作为第一个输入），多轮文本对话。（不支持图文交错输入、写代码、视觉定位、JSON mode等。）构造一个指令数据集，整体架构沿用BLIP2，在Q-former中多加入了文本prompt token来和图片进行交互。只训练q-former，在多个数据集上的zero-shot获得sota.

2024-01-22 19:53:07 680

原创 VLM 系列——Object Recognition as Next Token Prediction——论文解读

本文主要介绍《Object Recognition as Next Token Prediction》：结合了CLIP 的视觉编码器+语言模型Llama 的部分参数，将常见的图片描述任务转变为只输出属性，换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的top K属性（英文），用于开放域的图片Tag 场景。

2024-01-08 19:55:03 1508

视频分类C3D源码重构版

C3D、R3D、R(2+1)D 视频分类源码重构版，仅仅需要修改一个配置文件，不需要进入源码到处修改即可训练自己的数据。

2024-05-22

目标检测机器学习方法静态场景测试车辆检测

利用机器学习方法（分类）实现静态场景下的测试车辆检测  利用C语言或者Open_CV库，或者是MATLAB软件编写实现静态场景下的测视车辆检测。需使用机器学习方法。代码可以通过一个主函数直接运行出实验结果。  Data文件夹中包含train_34x94（训练集）和test（测试集）两个文件夹。其中，train_34x94文件夹中的数据用于训练模型，包含pos文件夹（内有550个正例样本）和neg文件夹（内有500个负例样本）； Test文件夹中的数据用于测试。  在Test测试集中的总体检测性能的评价指标为Recall、Precision 和F-measure，写出对算法的性能评价和对实现中遇到问题的理解。

2017-02-14

高斯混合模型背景建模

利用Scene_Data文件夹中的视频帧序列实现基于GMM（高斯混合模型）的背景建模。  利用C语言或者Open_CV库，或者是MATLAB软件编写混合高斯模型算法的程序。实现给定图像帧序列的背景建模及跟踪。代码可以通过一个主函数直接运行出实验结果。  要求写出对算法即其实现遇到问题的理解和实时性问题，每秒能处理多少帧，录制代码运行时的视频拷屏

2017-02-14

基于均值漂移法的目标跟踪

利用Mean Shift（均值漂移）算法对Car_Data文件夹中的视频帧序列实现目标跟踪，待跟踪的目标为场景中的车辆，初始目标位置标定需手工标定，（该视频序列中目标尺度没有很大变化，故在实现算法中只考虑单一尺度即可，即首帧中的目标大小。）后续帧中的目标位置需通过均值漂移方法得到。

2017-02-14

模板匹配技术

更深入理解模板匹配技术，能够独立根据已知算法（相关匹配（Correlation Matching）、基于Hausdorff距离匹配方法及考虑对场景图象距离变换（Distance Transform）的Hausdorff距离匹配方法）在MATLAB下编程实现相关的模板匹配技术，并通过结果，对比不同算法的优缺点。 1）利用①相关匹配（Correlation Matching）、②基于Hausdorff距离匹配方法及③考虑对场景图象距离变换（Distance Transform）的Hausdorff距离匹配方法,实现模板目标在场景图象中的定位。 2）对于每个模板分别给出最后的目标定位位置坐标（左下角坐标为（0,0））,对于方法①与②，比较定位精度的偏差；对于方法②与③比较定位效率（时间）。

2017-02-14

利用聚类技术实现纹理图像分割

利用聚类技术实现纹理图像分割 a）针对合成纹理图像（共有4个合成纹理图像，见文件夹：data\Texture_mosaic）中每一个像素提取纹理特征向量（提取纹理特征的方法可以为课堂讲的，也可以自己查找资料）； b）利用聚类技术（推荐用k-均值聚类，可以从网上查找原码）对特征向量空间中的点进行聚类，类别数可根据图像中的实际纹理类数确定。最后把类属标签映射成图像形式显示（如下图，其中b、d、f、h为相应的基准分割图像）。

2015-12-23

利用基于直方图的自适应阈值方法实现分割前景与背景

利用基于直方图的自适应阈值方法实现分割前景与背景 a）设定三个不同阈值，直接观察分割结果； b) 利用统计直方图，得到一个自适应的阈值，再观察实验结果； c) 以报告形式（word）阐述对所采用的基于直方图的自适应阈值法、实验结果以及对实验结果的分析。具体格式不限，但条理要清晰

2015-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

视频分类C3D源码重构版

目标检测 机器学习方法 静态场景 测试车辆检测

高斯混合模型背景建模

基于均值漂移法的目标跟踪

模板匹配技术

利用聚类技术实现纹理图像分割

利用基于直方图的自适应阈值方法实现分割前景与背景

空空如也

目标检测机器学习方法静态场景测试车辆检测