
Computer Vision
文章平均质量分 79
木盏
坐标 北京
喜欢写博客的CV工程师
levio@pku.edu.cn
展开
-
首个大规模图文多模态数据集LAION-400M介绍
openAI的图文多模态模型CLIP证明了图文多模态在多个领域都具有着巨大潜力,随之而来掀起了一股图文对比学习的风潮。就在前几天(2022年12月),连Kaiming都入手这一领域,将MAE的思路与CLIP的思路结合,推出了FLIP,有兴趣可戳(https://arxiv.org/abs/2212.00794)。对于迷茫的CV研究生,如果你找不到研究方向,just follow Kaiming绝对不会出错。今天要介绍的是一个优秀的图文多模态数据集LAION,跟CLIP原始训练数据集就有相当体量,即400个m原创 2022-12-04 18:25:24 · 14266 阅读 · 2 评论 -
多模态视觉任务Video Grounding介绍
Video Grounding不太好找到较好的中文翻译,grounding有“接地、基础”等意思。对于video grounding:输入:一个query(文本),以及一段视频。返回:文本所描述的活动的开始时间和结束时间原创 2022-12-02 14:38:50 · 3981 阅读 · 0 评论 -
GradCAM神经网络可视化解释(原理和实现)
GradCAM是经典的特征图可视化工具,在CV任务中,能用于分析CNN学到了什么东西。先看一张图:这就是GradCAM做出的效果,它直观地表示出咱们模型认为图片是Dog的是依据哪些地方。GradCAM借用梯度来进行注意力表示,发表于ICCV2017,如今依然活跃在学术和工程界。GradCAM原理对于视觉任务,包括图像分类、目标检测等,通常都是backbone+head的形式。如图1所示。所以,GradCAM可以无差别地对各种视觉任务进行可视化。在操作上,GradCAM拿到backbone的输原创 2022-05-07 18:29:09 · 9728 阅读 · 5 评论 -
盘点2021-2022年出现的CV神经网络模型
在transformer席卷CV领域之后,掀起了一股新型神经网络模型的涌现热潮。短短一两年时间,研究者们从不同结构领域冲击着SOTA,有ViT的,有CNN的,甚至还有纯MLP的。其中,不乏有一些启发性和奠基性的模型出现,隐约感觉到这两年是基础模型的爆发年。ViT引领了继2012年AlexNet和2015年ResNet之后的第三个基础模型爆发潮。于是,木盏以此博文做一个不是很完全的综述,整理给大家浏览,说不定可以遇到有帮助的trick。原创 2022-02-22 01:13:01 · 16621 阅读 · 2 评论 -
经典光流算法Lucas-Kanade(有图助理解)
光流法是计算机视觉领域非常常用的算法,深度学习时代的CV工程师可能会用到光流法,但鲜有对其实现原理做深度地探索的。今天正好趁着复现一个项目把LK光流法的算法进行一个探索和整理。原创 2021-12-07 23:31:19 · 21104 阅读 · 10 评论 -
Python光流实验(Optical Flow)
Optical Flow,即光流是一种经典的传统视觉算法。在视频层次的其他任务上,如视频目标检测、跟踪和分割等等,有着很大用武之地。原创 2021-12-06 17:18:57 · 7074 阅读 · 2 评论 -
Swin Transformer全方位解读【ICCV2021马尔奖】
自从ViT、DETR等尝试把language模型中的王炸transformer使用到视觉领域并得到还不错的验证效果后,研究者们一直在致力于“**如何更好地将语言模型建模到视觉**”这个问题。ViT直接把图片划分patch,用对待word的方式来对待每个patch,轻松将图片建模成sentence;而DETR则需要CNN辅助提取特征,而transformer只是当一个neck。后者更像是一个过渡模式,咱们本文不做过多讨论。原创 2021-10-18 23:15:11 · 13968 阅读 · 9 评论 -
拥抱Detectron2
detectron2是FAIR团队在维护的计算机视觉库,持续收集和实现各种SOTA的目标检测/分割算法。类似的库还有CUHK和商汤维护的MMDetection。对我而言,其最大的优势是可以方便快速下载到各种检测算法的pre-trained模型,同时比torchvision更追新一点。对于demo党而言,能够让你如此轻易实现SOTA算法的demo,那也是很苏糊的。为什么要拥抱Detectron2而不是Detectron呢? 答:Detectron2完全由PyTorch框架重写了一遍,为了迎合学术界的趋势。原创 2021-04-08 11:38:22 · 394 阅读 · 0 评论 -
【ICCV2019】全卷积一阶段检测器FCOS
FCOS的关键词是全卷积、Anchor-free,是近两年比较哇塞的检测器之一,它结构简单,运行速度快,不需要乱七八糟的前后设定,并且在COCO的mAP表现能超过一众anchor-based检测器。原创 2021-03-11 19:03:44 · 1719 阅读 · 3 评论 -
目标检测中的b-box回归损失函数(IOU,GIOU,DIOU,CIOU)
目标检测作为一种经典CV任务,大致可以认为是三个子任务的集合:1. 确定目标大概位置;2. 分类出目标类别;3. 回归出检测框的宽高;这三种子任务分别需要对应损失函数的反传来学习。今天介绍的b-box回归损失函数主要是面向第三个子任务而设计的损失函数。1. IOU全称Intersection-Over-Union,即交并比。计算预测框和标注框(即GT框)的交并比,就可以知道它们的“贴合程度”好不好,作为调整模型的指导。原文链接:[1608.01471] UnitBox: An Advance原创 2021-03-11 12:40:12 · 7006 阅读 · 4 评论 -
【AI数学】函数拟合之手写梯度反传的简单实验
本人一直对AI背后的数学原理非常感兴趣,今天做了一个“利用梯度反传来拟合函数”的小实验,此实验十分有利于深度学习初学者来了解梯度反向传播的计算步骤,所以顺便也分享一下。文章内容、公式推导和代码均为本人原创。有问题可以评论区交流。实验开始:首先,定义实验的目标函数(我们不知道它的公式,它揭示着自然规律,你只能输入然后看到输出结果,收集有限的样本对)。我们需要用梯度方向传播的方法来拟合这个目标函数。拟合的方法就是通过样本对来斧正咱们的原始函数。大概定义如下:目标函数:yˉ=5x+3\bar{y} =原创 2020-10-26 21:58:41 · 583 阅读 · 0 评论 -
【CVPR2018】Squeeze-and-Excitation Networks (SEnet)
这篇文章发表于CVPR2018,我在2018年就现场听过作者讲这篇文章(因为拖延症,现在才写博客)。这是当年的oral文章,也算Momenta团队近几年最后一个重磅点儿的学术工作了。国际惯例,先给出论文标题和链接。标题:Squeeze-and-Excitation Networks链接:https://arxiv.org/abs/1709.01507话说,在2018年以前,各种CNN结构百花齐放,从Alexnet,VGG,Inception到ResNet,DenseNet,到最后的SEnet。自原创 2020-09-10 22:21:16 · 992 阅读 · 0 评论 -
【GNN】图注意力网络GAT(含代码讲解)
毫无疑问,图神经网络(Graph Neural Networks)是泛计算机视觉领域内继CNN、GAN、NAS等之后的又一个研究热点,非常powerful。GAT是空域GNN的代表模型,Bengio大佬团队出品,发表在ICLR2018,目前谷歌引用已经1k了。它的特点是,很适合作为上手GNN模型。原创 2020-03-06 17:57:02 · 42103 阅读 · 45 评论 -
【ICCV2019】probabilistic face embeddings 概率人脸嵌入
概率人脸嵌入PFE:http://openaccess.thecvf.com/content_ICCV_2019/papers/Shi_Probabilistic_Face_Embeddings_ICCV_2019_paper.pdf这篇博文主体为对PFE的精细翻译,附带本人加的一些注释。摘要 通过比较隐语义空间的面部特征,嵌入方法已经在人脸识别领域取得了成功。然而,在完全无约束...原创 2019-10-29 11:35:01 · 7529 阅读 · 2 评论 -
SSIM(结构相似性)-数学公式及python实现
SSIM是一种衡量两幅图片相似度的指标。出处来自于2004年的一篇TIP,标题为:Image Quality Assessment: From Error Visibility to Structural Similarity地址为:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1284395与PSNR一样,SSIM...原创 2018-12-01 17:50:45 · 76430 阅读 · 16 评论 -
Focal Loss(ICCV2017 best student paper)
Focal Loss由FAIR提出。Kaiming包揽了ICCV2017的最佳论文(Mask R-CNN)和最佳学生论文(Focal Loss)。按照国际惯例,给出Focal Loss的论文标题和链接:Focal Loss for Dense Object Detection http://openaccess.thecvf.com/content_ICCV_2017/papers/L...原创 2019-05-05 19:22:54 · 2943 阅读 · 0 评论 -
计算机视觉中的不适定问题(ill-posed problem)
适定问题(well-posed problem)和不适定问题(ill-posed problem)都是数学领域的术语。前者需满足三个条件,若有一个不满足则称为"ill-posed problem":1. a solution exists 解必须存在2. the solution is unique 解必须唯一3. the solution's be...原创 2019-04-14 15:07:10 · 24325 阅读 · 2 评论 -
两种基于网页的神经网络画图工具
写论文的时候需要画神经网络的结构图,用PPT和VISIO之类的工具画效率会比较低。本文将介绍2种基于网页的神经网络画图工具,让结构图更加酷炫。1. NN-SVG这个工具有三种画图风格:FCNN、LeNet、AlexNet。网页链接为:http://alexlenail.me/NN-SVG/只需选择一种喜欢的风格,然后在左侧配置栏里填入自己网络的详细参数,就可以实现自动画图...原创 2019-04-16 15:34:13 · 45307 阅读 · 10 评论 -
python+opencv三点仿射变换
一张图来表明要实现的功能:说明:将一张正正方方的矩形图转换成平行四边形(甚至不规则四边形)的操作。平行四边形的图形看起来具有3D视角,在很多方面都有应用。我们直接来实现这个操作:1. 实现我们只需对应出3个点就可以使用opencv封装好的函数进行这个操作了,哪三个点呢?左上、右上、左下。三个点的坐标就是6个数字,我们把6个数字设置成自己想要的位置,就可以实现三点仿射变换。我...原创 2019-02-26 15:56:27 · 4827 阅读 · 2 评论 -
Keras中的fit和fit_generator
Keras是超级无敌好入手的AI框架之一了,极其人性化的设计受到了本人的吹爆。然而,keras中比较难理解的地方还是存在的,比如说这个fit_generator。在模型搭建完compile以后,一行"model.fit_generator(xxx)"就可以完成训练。真正让服务器开始忙的就是这一行代码。keras给模型喂入数据的函数有fit和fit_generator。我们知道fit的用...原创 2019-02-25 11:09:50 · 16908 阅读 · 9 评论 -
keras保存模型中的save()和save_weights()
今天做了一个关于keras保存模型的实验,希望有助于大家了解keras保存模型的区别。我们知道keras的模型一般保存为后缀名为h5的文件,比如final_model.h5。同样是h5文件用save()和save_weight()保存效果是不一样的。我们用宇宙最通用的数据集MNIST来做这个实验,首先设计一个两层全连接网络:inputs = Input(shape=(784, ))...原创 2019-01-23 16:38:23 · 69356 阅读 · 30 评论 -
基于python+opencv的DCT(离散余弦变换)实验
离散余弦变换是图像处理中非常常用的算法,可以用于jpg图像压缩等领域。数学原理我就不扯了,网上一大堆。但介于网上实在没有关于python+opencv来实现DCT的好文章(至少木盏没有搜到过)。于是稍微写一个博文做一个总结,给后人便利。要用到的模块是opencv,安装方法看另一篇文章《opencv快速安装》python==3.6.5opencv==3.1.0scipy==1.1.0...原创 2019-01-16 18:40:11 · 26455 阅读 · 7 评论 -
Keras框架下输出模型中间结果
Keras因其简洁便用被越来越多的调参工程师接受了,它具有高可读性的优势,缘于它本身对代码的模块化封装。高度模块化封装之后,很多细粒度操作就变得比较困难了,要不停地阅读它的技术document。       如果对基于keras所搭建的模型的中间计算结果进行读取,中文技原创 2019-01-11 18:41:10 · 9722 阅读 · 5 评论 -
WDSR(NTIRE2018超分辨率冠军)【深度解析】
s超分辨率(super-resolution)的通俗解释就是:将低分辨率的图像通过算法转换成高分辨率图像。听起来似乎很神奇,这样是不是可以把低清电影转换成高清了?就现在来看,基于深度学习的超分辨率(简称SR)已经达到了amazing的效果。当然,以木盏的习惯就是,只在博文中讨论干货。这篇博文要解析的算法叫做WDSR,来自UIUC的华人学生JiaHui Yu的论文。在SR界有一个比赛,叫做N...原创 2018-12-17 17:29:27 · 29619 阅读 · 46 评论 -
Sub-pixel Convolution(子像素卷积)
Sub-pixel convolution是一种巧妙的图像及特征图upscale的方法,又叫做pixel shuffle(像素洗牌)。我们知道,用深度学习处理图像的话,经常需要对特征图放大。常见的方法有直接上采样,双线性插值,反卷积等等。本文主要介绍一种在超分辨率中经常使用的upscale方法——sub-pixel convolution。采用CNN对feature map进行放大的方法,除了...原创 2018-12-12 16:49:55 · 35592 阅读 · 3 评论 -
pycharm专业版的合法激活方法
Pycharm专业版有三种激活方式:1,jetbrains账号2,激活码3,license服务器本文要介绍2种激活方法:license服务器 及jetbrains账号网上流传的方法大多数是利用license服务器,非常简单,只需填入一个链接就可以。缺点如下:无法获得永久使用权限,因为你不知道license服务器什么时候到期。我的服务器今天就到期了。当然,这种服务器...原创 2019-05-08 16:58:53 · 42964 阅读 · 20 评论 -
CVPR2019中关于超分辨率算法的16篇论文
CVPR2019中标题带超分辨率的全部16篇文章:(先看粗略统计)1. 从一作的名字来看,16篇中只有2篇不是中文名一作,中文名一作占比87.5%;可见,在这一领域,我国有着绝对优势!2.超分辨率领域的文章一共有16篇,CVPR2019共收录1300篇文章,占比1.23%;在CVPR2018中,共收录979篇,而超分辨率论文有14篇,占比1.43%;可见,每年对超分辨率方向的文章收录控制在...原创 2019-11-08 14:33:59 · 11871 阅读 · 0 评论 -
超实时性单目标跟踪网络——Siamese RPN(CVPR2018 spotlight论文)
今年sensetime在CVPR上的表现力压国内其他科研机构,直逼谷歌。以44篇论文(3oral,11spotlight,28poster)在国内一骑绝尘。其中有一篇北航大四学生李博为一作的论文SiamRPN在单目标tracking领域很有参考性。Siamese RPN论文地址: 戳链接 发表会议: CVPR2018 论文领域: 单目标追踪 论文代码: 暂无论文目的 对...原创 2018-07-16 17:20:20 · 22048 阅读 · 29 评论 -
python+opencv横向拼接视频
如果想利用python+opencv把两段视频拼接在一起,可以有两种想法:1. 第二个视频直接接在第一个视频后边,延长帧。这种我称为“纵向拼接”;2. 第一个视频和第二个视频每一帧平铺,这样就可以同时看两个视频了;如果你是第1个目的点进本文的,那么不好意思,本文不满足你的要求。本文主要面向横向拼接视频,把自己写的脚本记录一下,免得下次再写~import cv2import nu...原创 2019-09-06 18:03:42 · 7893 阅读 · 1 评论 -
ffmpeg压缩视频
经常采用python+opencv处理视频会发现,当用VideoWriter写单帧的时候,实际上不会进行帧间压缩的。所以,往往处理一个视频的所有帧以后发现,输出视频变得非常大。因为就是一堆图片的集合。不过我们可以对输出视频进行进一步压缩,用ffmpeg就可以了:ffmpeg -i input.avi -y -b:a 2000k -s 1800x1080 output.avi可以调节一...原创 2019-09-06 17:57:29 · 2528 阅读 · 0 评论 -
【ECCV2018】Unsupervised Hard Example Mining from Videos for Object Detection
这篇文章是ECCV2018里唯一的HEM方面的文章,是UMass的研究人员提出的目标检测方面的难例挖掘算法。HEM是“难例挖掘”的意思,让算法能够自己找到很难区分的样本,然后进一步供以训练。最后使得算法可以更好地区分难例。举个栗子:在目标检测算法中,检测器经常会有错检,比如它的目标是检测篮球,但它很容易检测到光头上去。那这个光头,就是一个难例。HEM可以找到这些难例,然后进行针对性训练,以...原创 2019-08-14 15:30:17 · 826 阅读 · 2 评论 -
【CVPR2016】OHEM--online negative example mining
现在很少会关注2年以前的顶会论文了,但是像OHEM这样的经典论文还是值得一读。果然论文作者列表里有rbg大神的都是经典文章。国际惯例,先给出文章标题和链接:标题:Training Region-based Object Detectors with Online Hard Example Mining链接:https://arxiv.org/pdf/1604.03540.pdf本文避免...原创 2019-08-13 17:47:17 · 1451 阅读 · 0 评论 -
python+opencv裁剪视频
python有极其方便的脚本特性,用来做一些脚本工作非常合适。对于经常用到的小脚本儿,用个博文记下来,以免下次又重新写 ~ -_-。环境:python2/3 + opencv 3.1功能:输入一个长视频,我想用帧序号的方法截取其中的一小段,只需明确起始帧和结束帧即可。脚本如下:import cv2INPUT_FILE = 't1.avi'OUTPUT_FILE = 'c...原创 2019-07-28 14:56:06 · 5480 阅读 · 3 评论 -
ubuntu下编译opencv
1. 下载opencv gitgit clone https://github.com/opencv/opencv.git2. 进入opencv/ 并新建build/文件夹,再进入build/cd opencvmkdir buildcd build第1步和第2步是宇宙通用步骤,第3步将可由用户喜好制定cmake3. 在build文件夹下cmakecmake -D...原创 2019-08-01 17:57:52 · 653 阅读 · 4 评论 -
【AI数学】hard negative mining
困难负例挖掘(hard negative mining)是2009年rbg等人发表在TPAMI上的trick,这个trick就类似于AI模型的“错题集”,把难以区分的sample添加进去继续训练。这是一个增加正负样本discrimination的trick,可以一定程度上减少误检。原文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&...原创 2019-07-30 18:03:24 · 1178 阅读 · 0 评论 -
2019-2020计算机视觉相关会议截稿时间举办时间【持续更新】
抽个空整理下CV相关的会议截稿时间和举办时间。对于想投论文的萌新而言,这个一定很有用处。持续更新,欢迎收藏。收录会议包括:CVPR, ICCV, ECCV, SIGGRAPH, IJCAI, ICML, ICLR, NIPS, MM, AAAI, BMVC, ICIP, ACCV会议 截稿时间 举办时间 CCF等级 地点 备注 主页 IJCAI...原创 2019-07-30 19:33:41 · 40367 阅读 · 10 评论 -
【CVPR2019】Camera Lens Super-Resolution
中科大团队提出的相机镜头超分辨率在CVPR2019亮相。今年在CVPR中亮相的SR文章有16篇之多,大概大家都开拓“改进模型结构来提升PSNR”之外的赛道,旷视的Meta-SR聚焦在非整数倍尺寸放大的SR。而CameraSR聚焦在相机拍摄的超分辨率。这篇文章面向相机进行超分辨率,这很容易让人联想到前段时间的华为P30,号称能拍摄月球,但不过是用超分辨率代替拍摄来“糊弄”用户,不过这种SR操作的手...原创 2019-06-25 11:29:44 · 3276 阅读 · 5 评论 -
【CVPR2019】Unsupervised Deep Tracking无监督目标跟踪
UDT是中科大、腾讯AI lab和上交的研究者提出的无监督目标跟踪算法。仔细阅读过这篇文章之后,写下一篇paper reading加深印象。论文标题:Unsupervised Deep Tracking论文地址:https://arxiv.org/pdf/1904.01828.pdfGithub(pytorch):https://github.com/594422814/UDT_pyt...原创 2019-05-28 16:04:24 · 6730 阅读 · 3 评论 -
PSNR-峰值信噪比(原理及python代码实现)
PSNR的全称为“Peak Signal-to-Noise Ratio”,直译为中文就是峰值信噪比。是一种衡量图像质量的指标。在很多领域都会需要这个指标,比如在超分辨率重建图像的时候,PSNR就是很重要的指标了。WIKI解释峰值信噪比(英语:Peak signal-to-noise ratio,常缩写为PSNR)是一个表示信号最大可能功率和影响它的表示精度的破坏性噪声功率的比值的工程...原创 2018-11-28 16:40:30 · 81310 阅读 · 16 评论 -
CVPR2019实时数据跟进【持续更新】
CVPR2019全部论文访问已经开放:http://openaccess.thecvf.com/CVPR2019.py不知不觉,CVPR2019都已经截稿了。CVPR作为泛人工智能领域H指数最高的会议(高达158),被广泛关注。尤其对于CVer来说,这是一个神圣的会议。CVPR2018论文数据统计可以点这里。CVPR2019会议信息如下:截稿日期 举办地点 举办时间 ...原创 2018-11-19 17:02:12 · 13409 阅读 · 0 评论