
计算机视觉
文章平均质量分 96
cv
山顶夕景
互联网大厂AI算法工程师。实践出真知。
展开
-
【LLM多模态】Cogview3、DALL-E3、CogVLM、LLava模型
丹青模型基于原生中文语料数据及网易自有高质量图片数据训练,与其他文生图模型相比,丹青模型的差异化优势在于对中文的理解能力更强,对中华传统美食、成语、俗语、诗句的理解和生成更为准确。VisualGLM 是一个依赖于具体语言模型的多模态模型,而CogVLM则是一个更广阔的系列,不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。之前的多模态模型:通常都是将图像特征直接对齐到文本特征的输入空间去,并且图像特征的编码器通常规模较小,这种情况下图像可以看成是文本的“附庸”,效果自然有限。原创 2024-01-30 22:57:32 · 3018 阅读 · 2 评论 -
【多模态LLM】以ViT进行视觉表征的多模态模型1(BLIP、BLIP-2、InstructBLIP)
- CLIP和BLIP的区别: - CLIP:通过对比学习联合训练,预测图像和文本之间的匹配关系。即使用双塔结构,分别对图像和文本编码,然后通过计算cos进行图文匹配。 - BLIP:包括两个单模态编码器(图像编码器和文本编码器)、一个图像基础的文本编码器和一个图像基础的文本解码器。BLIP通过联合训练三个损失函数:图像-文本对比损失(ITC)、图像-文本匹配损失(ITM)和语言建模损失(LM),以实现多任务学习和迁移学习。 - 训练方式的区别:除了对比学习,BLIP还采用了一种高效率利用噪声网络数据原创 2024-07-01 21:53:49 · 2589 阅读 · 1 评论 -
【多模态/CV】图像数据增强数据分析和处理
多模态大模型训练前,图片处理的常见操作:分辨率调整、网格畸变、水平翻转、分辨率调整、随机crop、换颜色、多张图片拼接等。ORB(Oriented FAST and Rotated BRIEF) 是一种计算机视觉中常用的特征检测算法,它将 FAST 关键点检测和 BRIEF 描述符生成结合起来,同时引入了方向性和尺度不变性。使用 ORB 进行特征检测可以有以下几个应用:- 目标识别:在多幅图像中检测相同的ORB 特征点,并通过这些点的匹配确定目标物体的位置和方向- 图像匹配:在两幅图像中检测 ORB 特原创 2024-06-08 11:41:19 · 1801 阅读 · 7 评论 -
【LLM多模态】MiniGPT4模型架构和训练流程
- 图生文应用场景:比如电商领域根据产品图像生成产品描述、娱乐领域中根据电影海报生成电影介绍等- MiniGPT-4将预训练的大语言模型和视觉编码器参数同时冻结,只需要单独训练线性投影层,使视觉特征和语言模型对齐。- MiniGPT4的视觉编码器:使用了与BLIP-2相同的预训练视觉语言模型,该模型由2个部分组成: - 视觉编码器ViT(vision transformer):提取图像中的基本视觉特征。miniGPT-4使用了EVA-CLIP中的ViT-G/14进行实现(初始化该模块的代码如下) -原创 2024-05-02 09:14:45 · 2009 阅读 · 0 评论 -
【LLM多模态】Qwen-VL模型架构和训练流程
Qwen-VL模型的整体网络架构包括以下三个组件:大型语言模型(Large Language Model):- 作用:作为Qwen-VL模型的基础组件,这个部分采用了一个大型语言模型,其初始权重来自于预训练的Qwen-7B模型。- 来源:Qwen-VL的大型语言模型使用了来自Qwen-7B模型的预训练权重。视觉编码器(Visual Encoder):- 作用:视觉编码器采用了Vision Transformer(ViT)架构,用于处理输入图像并生成一组图像特征。在训练和推理过程中,将输入图像调原创 2024-04-25 22:39:54 · 13679 阅读 · 2 评论 -
【LLM】2023年十大高影响力AI论文
Pythia — 大模型该如何训练?《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》Llama 2 — 开源模型之王《Llama 2: Open Foundation and Fine-Tuned Chat Models》QLoRA — 高效微调《QLoRA: Efficient Finetuning of Quantized LLMs》BloombergGPT — 垂直领域大原创 2024-01-14 23:36:31 · 1422 阅读 · 0 评论 -
【CV】Yolov8:ultralytics目标检测、关键点检测、语义分割
Yolov8提供了一个全新的 SOTA 模型,包括 P5 640 和 P6 1280 分辨率的目标检测网络和基于 YOLACT 的实例分割模型。和 YOLOv5 一样,基于缩放系数也提供了 N/S/M/L/X 尺度的不同大小模型,用于满足不同场景需求骨干网络和 Neck 部分可能参考了 YOLOv7 ELAN 设计思想,将 YOLOv5 的 C3 结构换成了梯度流更丰富的 C2f 结构,并对不同尺度模型调整了不同的通道数,属于对模型结构精心微调Head 部分相比 YOLOv5 改动较大,换成了目前主流的原创 2023-05-21 16:05:15 · 14800 阅读 · 6 评论 -
【CV】Latent diffusion model 扩散模型体验
稳定扩散模型则基于传统的数学模型,具有较好的稳定性和可解释性。不需要大量的训练数据和计算资源,可以从少量的数据中学习并进行预测。稳定扩散模型还可以通过调整模型参数来控制模型的灵敏度和鲁棒性,以适应不同的数据分布和噪声情况。稳定扩散模型在计算机视觉领域具有一定的优势,可以用于物体和目标识别、跟踪和预测等任务。但它也存在一些局限性,例如难以处理复杂的图像场景、对噪声和异常值较为敏感等问题。二、Latent diffusion model原理Latent Diffusion模型不直接在操作图像,而是在潜原创 2023-03-26 17:29:29 · 7898 阅读 · 0 评论 -
CV之目标检测22年发展历程
目标检测领域发展至今已有二十余载,从早期的传统方法到如今的深度学习方法,精度越来越高的同时速度也越来越快,这得益于深度学习等相关技术的不断发展。本文将对目标检测领域的发展做一个系统性的介绍,旨在为读者构建一个完整的知识体系架构,同时了解目标检测相关的技术栈及其未来的发展趋势。本文将从以下九大方面进行展开:背景目标检测算法发展脉络目标检测常用数据集及评价指标目标检测任务普遍存在的六大难点与挑战目标检测的五大技术及其演变目标检测模型的加速技术提高目标检测模型精度的五大技术目标检测的五大应用场景转载 2023-03-13 21:40:42 · 1148 阅读 · 0 评论 -
【PyTorch基础教程13】GoogleNet和ResNet(学不会来打我啊)
学习心得文章目录学习心得零、简单回顾一、GoogleNet二、1×1卷积核三、学习路线Reference零、简单回顾上节课主要讲了CNN的架构(LetNet5):一、GoogleNet减少代码冗余:函数or类。从下图的GoogleNet可以看出二、1×1卷积核作用三、学习路线(1)理论,看花书《深度学习》(2)通读一遍PyTorch官方文档(3)复现经典工作(读代码和写代码交叉进行),注意去github下别人论文代码跑通没啥用,要自己复现,不会的再去看别人的代码(4)扩充视野。原创 2021-10-21 22:18:22 · 3752 阅读 · 10 评论 -
【CV语义分割】全卷积神经网络FCN(更新ing)
科技文献大概可以这么区分:一次文献和二次文献。一次文献指直接出版发行的内容本身。期刊的文章,图书,专利,会议论文集等等等等都属于一次文献。二次文献可以理解为「一次文献的文献」。类似元数据「meta data」是数据的数据。通常表现为一个收录平台收录一个一次文献的集合,并开放文章的摘要及引文信息。SCI,EI是两个知名的二次文献数据库。因为收录质量高而在国内常作为研究人员毕业、晋升、职称评定的重要依据。Sciencedirect是爱思唯尔出版社的一次文献数据库。主要包含爱思唯尔出版的期刊和图书。EI(原创 2021-07-31 05:49:25 · 3230 阅读 · 9 评论