
图像处理
文章平均质量分 70
开心的火龙果
这个作者很懒,什么都没留下…
展开
-
MoCoViT: Mobile Convolutional Vision Transformer
本文提出了MoCoViT,一个可以用于移动设备的轻量级的VIT结构。本文主要以GhostNet为基础,加入了改进版的transformer block。原创 2022-06-02 10:13:28 · 1021 阅读 · 0 评论 -
Conditional Prompt Learning for Vision-Language Models
本文是对CoOp方法提出的改进。CoOp由论文Learning to Prompt for Vision-Language Models提出,CoOp针对CLIP模型做了改进,将人工设计的提示修改为了可学习的参数,具体来说就是,CoOp不再使用"[x]的照片"作为提示,而是引入了M个可学习的提示向量。由于CoOp学到的提示参数存在对训练集过拟合的现象,在新类别上的泛化性能不好,因此作者又进一步提出了CoCoOp。CoCoOp加入了一个轻量的模型,用于为每个输入图像生成一个补充提示向量,提升模型在新类别上的泛原创 2022-04-06 19:48:35 · 1819 阅读 · 0 评论 -
HCSC: Hierarchical Contrastive Selective Coding 解读
HCSC: Hierarchical Contrastive Selective Coding在图像数据集中,往往存在分层级的语义结构,例如狗这一层级的图像中又可以划分为贵宾、金毛等细粒度的类别。例如这张图,展示了一个数据集中的多种语音层级。在学习图像表征时,如果能把图像语义的层级关系学习进去,能够极大地提升图像表征在下游任务上的表现。先前提出的对比学习方法在建模时都忽略了这部分,本文提出了一种新的对比学习框架,Hierarchical Contrastive Selective Coding .原创 2022-03-28 14:37:52 · 2942 阅读 · 0 评论 -
CLIP解读
CLIP:Learning Transferable Visual Models From Natural Language SupervisionOpenAI的CLIP这篇文章,从互联网收集构建了了4亿个图片-文本对的数据集,对图像和文本通过编码器提取的Embedding使用对比学习方式训练,得到对齐的图像&文本Embedding,并用在Zero-shot学习任务中。训练好的模型开源在:https://github.com/openai/CLIP论文分享了作者一些观点:1、不采用图原创 2022-03-02 16:15:38 · 3724 阅读 · 0 评论 -
空洞卷积的简单理解
空洞卷积诞生背景:诞生于图像分割任务,图像分割任务一方面通过卷积池化过程进行降采样不断扩大感受野,从而提取图像的主要特征。另一方面,通过上采样将特征图还原成原图大小。降采样的过程中由于卷积和池化操作使得一些小的特征和物体的边缘特征被损失掉了,在上采样时也无法还原,导致图像分割的精细度不够。因此,人们构思一种能够减少信息损失的扩大感受也的方法,诞生了空洞卷积。空洞卷积的计算方法:图a是一般的3*3卷积的感受野;图b是在图a卷积基础上,空洞参数设置为2,3*3卷积的感受野;在原始3*3卷积的基.原创 2021-03-16 22:19:28 · 460 阅读 · 0 评论 -
知识积累
读base64编码的图片:import base64with open(name,'rb') as img_file: img_b64 = base64.b64encode(img_file.read())请求接口:request_det_url = 'http://117.50.***/face/detect'det_params = {img:img_b64,pa...原创 2020-05-06 23:40:20 · 171 阅读 · 0 评论 -
yolov1/v2/v3学习总结
yolov1的文章建立了yolo整个的模型思路,后面出现的v2/v3/v4都是在v1基础上增加了当时流行的trick进行的修改。yolo属于一阶段的目标检测模型,与rcnn系列相比,牺牲了一定的精度,但是速度更快。yolov1首先介绍yolov1。yolo通过将全图作为模型输入,直接在卷积网络后面加分类层得到目标的位置和类别。这个思路是很简单直接的,会起作用主要在于很多实现细节。1. 如何针对...原创 2020-05-05 23:52:03 · 616 阅读 · 0 评论 -
mmdetection源码阅读
阅读从tools/train.py开始。功能模块Register类位置:utils/registry.py用于注册起到相同作用的(例如coco/voc数据类、模型类、数据处理流程类)类别。具体功能是这样的。Register的__init__加载了两个属性,分别是name,module_dict.Register有两个主要功能函数,分别是register_module,get.假设我...原创 2020-01-07 21:10:44 · 684 阅读 · 1 评论 -
图像检索调研
SIFT与CNN的碰撞:万字长文回顾图像检索任务十年探索历程(上篇)SIFT与CNN的碰撞:万字长文回顾图像检索任务十年探索历程(下篇)图像检索公开数据集图像检索:BoW图像检索原理与实战Neural Codes for Image Retrieval 文献阅读论文 | 图像检索经典论文解读《Learning visual similarity for product design wi...原创 2019-05-17 18:18:10 · 448 阅读 · 0 评论 -
CNN模型可视化
1 引言要说起深度学习中最为常用和广为人知的网络模型,就要数卷积神经网络(Convolutional Neural Networks, CNN)了。CNN目前在语音识别,图像分类,图像分割,自然语言处理等领域都取得了巨大的成功,虽然这些领域的问题并不相同,但CNN可以从大规模数据中提取特征,从而帮助完成图像分类、文本分类等问题。人们常常说深度学习是一个黑盒,是因为我们虽然知道CNN从数据中提取...原创 2019-05-16 13:56:55 · 1947 阅读 · 0 评论 -
翻译:Attention-based Extraction of Structured Information from Street View Imagery
摘要 - 我们提出了一种神经网络模型 - 基于卷积神经网络,回归神经网络和一种新颖的注意机制 - 在具有挑战性的法国街道名称标志(FSNS)数据集上达到84.2%的准确率,明显优于先前的技术水平(Smith') 16),达到72.46%。 此外,我们的新方法比以前的方法更简单,更通用。 为了证明我们模型的一般性,我们证明它在从Google街景视图中衍生的更具挑战性的数据集上也表现良好,其目标是从商...原创 2019-02-16 16:45:20 · 1013 阅读 · 0 评论 -
卷积神经网络模型解释性调研
前言最近在训练一个鉴黄模型,模型训练出来之后发现模型对粉色背景的图片、人体占图片大面积比例的图片十分敏感,导致这些正常图片容易被误判为黄图,因此,需要进行模型解释性方面的研究,来看看模型究竟是根据什么来进行图片分类的。这里主要会介绍三篇论文,分别是:Visualizing and Understanding Convolutional NetworksLearning Deep Feat...原创 2018-12-03 00:36:20 · 912 阅读 · 0 评论 -
多维度卷积、rpn、fpn网络相关知识点记录
有一些记了又忘,忘了又记的东西,在这里留存一下。大概我快老年痴呆了。一 多维度卷积对于卷积的计算,思维常常停留在一个维度上,很少去考虑实际上,在卷积的时候是多维度的。多维度的计算也总是迷迷糊糊。这张图可以说的很清楚,当我们要对一个3通道的图像(也就是上图中的蓝色框)进行卷积时,则使用3通道的卷积核(即上图中粉色的方框),对上述27个计算得到的三维数字求和,即得到中间像素的卷积结果。如果我们想要得到...原创 2018-05-03 14:53:37 · 2012 阅读 · 0 评论 -
ctpn、east阅读要点记录
最近要做一些ocr的事情,阅读了文字定位的相关论文,主要是ctpn和east.下面对这两篇论文的药店进行一个记录。CTPNctpn结合了卷积神经网络和循环神经网络。卷机神经网络用于提取图片特征,循环神经网络能够帮助提升对文字的定位和分类的准确度(文中对使用和不适用rnn的结果进行了对比)。下面对网络结构进行一个介绍。首先是通过VGG16的卷积层进行特征提取,这里使用了vgg的五层卷...原创 2018-07-23 00:27:02 · 1747 阅读 · 0 评论 -
小目标检测论文阅读
下面记录了一些论文的阅读总结:算法发展历程:传统图像算法:传统图像算法使用hand-made feature,常用方法有SIFT、HOG、图像金字塔等。对于小目标的检测,传统图像算法有人工复杂度高,模型泛化性差等缺点,因此逐渐被深度学习模型取代。深度学习:小目标检测在深度学习卷积神经网络模型中一直是一个难题。早期的目标检测框架(R-CNN、YOLO系列)对于小目标检测的效果都不甚良...原创 2018-08-26 11:15:33 · 18790 阅读 · 8 评论 -
CRNN论文阅读占坑
CRNN:目前常用的字符识别模型 但在实践过程中发现 该模型无论在训练还是测试上效果都不够优秀 说明OCR领域还有许多需要研究的地方 CRNN模型也有许多可改进之处简单来说,模型的结构就是一个卷积网络+双向lstm+全连接层进行分类+ctc解码识别卷积将一个大小为32*100的原图转化为了1*25大小的特征图,然后送进lstm 主要进行了三次训练,分别是基于中文诗句数据集、英...原创 2018-08-21 22:04:19 · 1739 阅读 · 0 评论 -
建立简单的卷积神经网络训练分类器,识别九宫格、四宫格等图片
本文想实现一个分类器模型,该模型能够识别出九宫格图片并将图片进行切割,首先我要构造训练集,也就是自己生成一些九宫格图片。其中r=3表示将其切割为3行,c=3表示将其切割为3列。你也可以生成4宫格图片。import cv2import os#image_path=r'C:\Users\hou\Desktop\timg.jpg'def cut(image_path,r=3,c=3):...原创 2018-09-01 08:09:00 · 1471 阅读 · 2 评论