
paper
文章平均质量分 78
木盏
坐标 北京
喜欢写博客的CV工程师
levio@pku.edu.cn
展开
-
Unsupervised Image-to-Image Translation Networks(NIPS 2017)
文本为论文翻译,翻译尽量为通俗语言,并且尽最大可能还原论文的原意。原文名:《Unsupervised Image-to-Image Translation Networks》论文地址: https://arxiv.org/pdf/1703.00848.pdf对关键词的翻译,避免造成误解,特有以下说明:转换=translate, 比如输入一张夏天的照片,输出一张冬天的照片,这个过程成...翻译 2018-11-02 13:01:34 · 6752 阅读 · 6 评论 -
【CVPR2019】Unsupervised Deep Tracking无监督目标跟踪
UDT是中科大、腾讯AI lab和上交的研究者提出的无监督目标跟踪算法。仔细阅读过这篇文章之后,写下一篇paper reading加深印象。论文标题:Unsupervised Deep Tracking论文地址:https://arxiv.org/pdf/1904.01828.pdfGithub(pytorch):https://github.com/594422814/UDT_pyt...原创 2019-05-28 16:04:24 · 6730 阅读 · 3 评论 -
WDSR(NTIRE2018超分辨率冠军)【深度解析】
s超分辨率(super-resolution)的通俗解释就是:将低分辨率的图像通过算法转换成高分辨率图像。听起来似乎很神奇,这样是不是可以把低清电影转换成高清了?就现在来看,基于深度学习的超分辨率(简称SR)已经达到了amazing的效果。当然,以木盏的习惯就是,只在博文中讨论干货。这篇博文要解析的算法叫做WDSR,来自UIUC的华人学生JiaHui Yu的论文。在SR界有一个比赛,叫做N...原创 2018-12-17 17:29:27 · 29619 阅读 · 46 评论 -
2024全年CV/CG/MM领域CCF会议列表
IJCAIAJan 17SIGGRAPHAJan 24AFeb 1AMar 7VISAMar 31AApr 12。原创 2024-01-25 23:52:27 · 2786 阅读 · 0 评论 -
【学位论文】GB/T 7714-2015引用的快捷操作方法
GB/T 7714-2015《信息与文献参考文献著录规则》于2015年12月1日开始实施,成为了目前国内主流的学位论文引用格式之一。本文介绍一种比较方便简单的引用方法。原创 2023-10-18 17:02:49 · 7260 阅读 · 0 评论 -
CVPR2023中的数据集工作(共46篇)
本文搜集了CVPR2023中所有的以数据集发布为主的工作,共搜集到46篇。所有标题都附带文章超链接,请君享用~原创 2023-06-21 18:15:25 · 3773 阅读 · 0 评论 -
CVPR2023最佳论文提名(12篇)
本文对CVPR2023公布的12篇最佳论文候选文章进行统一梳理,所有文章链接均附上。原创 2023-06-19 22:54:51 · 1981 阅读 · 1 评论 -
图文多模态模型CLIP
CLIP带给我的震撼是超过transformer的,这是OpenAI的重要贡献之一。就如官网所描述的:用对比学习(Contrastive Learning)来对齐约束图像模型和文本模型。用文本嵌入指导图像学习,图像嵌入指导文本学习。这样一来,图像分类进入了CLIP时代,不需像传统深度学习图像分类一样,先定义出类别范围,然后准备各类别的数据(比如MNIST的十分类,ImageNet的千分类)。我们有了CLIP,可以直接任意给出一个class set如{“cat”,“dog”, “horse”,“Other”}原创 2022-12-05 23:22:57 · 5689 阅读 · 1 评论 -
轻量级Visual Transformer模型——LeViT(ICCV2021)
LeViT是FAIR团队发表在ICCV2021上的成果,是轻量级ViT模型中的标杆,文章对ViT中多个部件进行的改进,如加速策略等,对很多工程化铺设ViT系列模型都是很有借鉴意义的。按说,近期出现的优质模型非常多,各种冲击SOTA的,详情可戳我整理的小综述《盘点2021-2022年出现的CV神经网络模型》。但我为何会单独对LeViT拿出来进行详细剖析呢?原因很简单:LeViT非常工程实用,是一款足够优秀的轻量级视觉transformer模型。市面上很多轻量级模型都进入了一个误区:大家都在比拼FLOPs数和原创 2022-03-03 20:19:24 · 11435 阅读 · 5 评论 -
盘点2021-2022年出现的CV神经网络模型
在transformer席卷CV领域之后,掀起了一股新型神经网络模型的涌现热潮。短短一两年时间,研究者们从不同结构领域冲击着SOTA,有ViT的,有CNN的,甚至还有纯MLP的。其中,不乏有一些启发性和奠基性的模型出现,隐约感觉到这两年是基础模型的爆发年。ViT引领了继2012年AlexNet和2015年ResNet之后的第三个基础模型爆发潮。于是,木盏以此博文做一个不是很完全的综述,整理给大家浏览,说不定可以遇到有帮助的trick。原创 2022-02-22 01:13:01 · 16621 阅读 · 2 评论 -
ICCV2021中的时序动作检测算法
ICCV2021中时序动作检测相关的文章一共有7篇,如下:NUMTitleHas_codeTypeAnet1.3THUMOS141Foreground-Action Consistency Network for Weakly Supervised Temporal Action LocalizationTrueWeakly-Supervised24.042.22Learning Action Completeness From Points for Weak原创 2021-10-19 13:41:29 · 1040 阅读 · 0 评论 -
【ICCV2019】全卷积一阶段检测器FCOS
FCOS的关键词是全卷积、Anchor-free,是近两年比较哇塞的检测器之一,它结构简单,运行速度快,不需要乱七八糟的前后设定,并且在COCO的mAP表现能超过一众anchor-based检测器。原创 2021-03-11 19:03:44 · 1719 阅读 · 3 评论 -
目标检测中的b-box回归损失函数(IOU,GIOU,DIOU,CIOU)
目标检测作为一种经典CV任务,大致可以认为是三个子任务的集合:1. 确定目标大概位置;2. 分类出目标类别;3. 回归出检测框的宽高;这三种子任务分别需要对应损失函数的反传来学习。今天介绍的b-box回归损失函数主要是面向第三个子任务而设计的损失函数。1. IOU全称Intersection-Over-Union,即交并比。计算预测框和标注框(即GT框)的交并比,就可以知道它们的“贴合程度”好不好,作为调整模型的指导。原文链接:[1608.01471] UnitBox: An Advance原创 2021-03-11 12:40:12 · 7006 阅读 · 4 评论 -
【CVPR2021】RepVGG:重参数化——让VGG再次强大
这里的VGG指代各种平铺卷积的CNN,不带resnet那种shortcut。难得在这么浮躁的时代还有人在钻研改进VGG-style的CNN。VGG作为经典CNN的代表,事实上到如今都没有被淘汰,依然活跃在各种工程中。国际惯例,先放出原文:RepVGG: Making VGG-style ConvNets Great Again链接:https://arxiv.org/abs/2101.03697论文第一作者丁霄汉在知乎的解析:https://zhuanlan.zhihu.com/p/344324原创 2021-02-26 17:57:48 · 7002 阅读 · 3 评论 -
【以CVPR模板为实例】Ubuntu下搭建Latex编辑环境(texlive+texstudio)
本文旨在介绍一种ubuntu环境下最方便快捷的latex编辑+编译环境。并成功打开CVPR论文模板。注意本文的关键词:【方便】【快捷】。所有步骤推荐的方法不一定是最佳,但一定是最简单快捷的。本文分三步进行,编辑器->编译器->运行CVPR模板1. 首先是编辑器,在众多tex编辑器界面里,我一眼就相中了Tex Studio。名字有点visual studio的意思。(官网下载,直接安装,无须注册,毫无难度)直接戳链接,下载对应版本:http://texstudio.sourcefo原创 2020-12-02 14:00:15 · 3303 阅读 · 0 评论 -
【2020-2021】计算机视觉、机器学习会议(持续更新)
更新时间:3/3/2021原创 2020-09-24 14:04:25 · 8275 阅读 · 2 评论 -
【CVPR2018】Squeeze-and-Excitation Networks (SEnet)
这篇文章发表于CVPR2018,我在2018年就现场听过作者讲这篇文章(因为拖延症,现在才写博客)。这是当年的oral文章,也算Momenta团队近几年最后一个重磅点儿的学术工作了。国际惯例,先给出论文标题和链接。标题:Squeeze-and-Excitation Networks链接:https://arxiv.org/abs/1709.01507话说,在2018年以前,各种CNN结构百花齐放,从Alexnet,VGG,Inception到ResNet,DenseNet,到最后的SEnet。自原创 2020-09-10 22:21:16 · 992 阅读 · 0 评论 -
【ICCV2019】probabilistic face embeddings 概率人脸嵌入
概率人脸嵌入PFE:http://openaccess.thecvf.com/content_ICCV_2019/papers/Shi_Probabilistic_Face_Embeddings_ICCV_2019_paper.pdf这篇博文主体为对PFE的精细翻译,附带本人加的一些注释。摘要 通过比较隐语义空间的面部特征,嵌入方法已经在人脸识别领域取得了成功。然而,在完全无约束...原创 2019-10-29 11:35:01 · 7529 阅读 · 2 评论 -
SWA(随机权重平均)——一种全新的模型优化方法
这两天被朋友推荐看了一篇热乎的新型优化器的文章,文章目前还只挂在arxiv上,还没发表到顶会上。本着探索的目的,把这个论文给复现了一下,顺便弥补自己在优化器方面鲜有探索的不足。论文标题:Averaging Weights Leads to Wider Optima and Better Generalization论文链接:https://arxiv.org/abs/1803.05407....原创 2018-11-13 23:33:56 · 16517 阅读 · 3 评论 -
CVPR2019实时数据跟进【持续更新】
CVPR2019全部论文访问已经开放:http://openaccess.thecvf.com/CVPR2019.py不知不觉,CVPR2019都已经截稿了。CVPR作为泛人工智能领域H指数最高的会议(高达158),被广泛关注。尤其对于CVer来说,这是一个神圣的会议。CVPR2018论文数据统计可以点这里。CVPR2019会议信息如下:截稿日期 举办地点 举办时间 ...原创 2018-11-19 17:02:12 · 13409 阅读 · 0 评论 -
两种基于网页的神经网络画图工具
写论文的时候需要画神经网络的结构图,用PPT和VISIO之类的工具画效率会比较低。本文将介绍2种基于网页的神经网络画图工具,让结构图更加酷炫。1. NN-SVG这个工具有三种画图风格:FCNN、LeNet、AlexNet。网页链接为:http://alexlenail.me/NN-SVG/只需选择一种喜欢的风格,然后在左侧配置栏里填入自己网络的详细参数,就可以实现自动画图...原创 2019-04-16 15:34:13 · 45307 阅读 · 10 评论 -
【AI数学】神经网络的反向传播BackPropagation
BP算法是深度学习中最重要也是最基础的算法之一,也是Hinton本人的图灵奖工作之一。更重要的是,BP是深度学习岗位面试必问题之一。本文会以最容易理解的方式来介绍反向传播,避免大量公式。1. 前向传播和反向传播前向还是反向区别在于计算顺序。我们通常把inference称为前向,因为计算顺序是从浅层到深层,一层一层地传递。而反向传播就是从深层到浅层。先看一个二层感知机网络,如上图。每...原创 2019-04-24 17:50:04 · 1584 阅读 · 0 评论 -
Focal Loss(ICCV2017 best student paper)
Focal Loss由FAIR提出。Kaiming包揽了ICCV2017的最佳论文(Mask R-CNN)和最佳学生论文(Focal Loss)。按照国际惯例,给出Focal Loss的论文标题和链接:Focal Loss for Dense Object Detection http://openaccess.thecvf.com/content_ICCV_2017/papers/L...原创 2019-05-05 19:22:54 · 2943 阅读 · 0 评论 -
CVPR2019中关于超分辨率算法的16篇论文
CVPR2019中标题带超分辨率的全部16篇文章:(先看粗略统计)1. 从一作的名字来看,16篇中只有2篇不是中文名一作,中文名一作占比87.5%;可见,在这一领域,我国有着绝对优势!2.超分辨率领域的文章一共有16篇,CVPR2019共收录1300篇文章,占比1.23%;在CVPR2018中,共收录979篇,而超分辨率论文有14篇,占比1.43%;可见,每年对超分辨率方向的文章收录控制在...原创 2019-11-08 14:33:59 · 11871 阅读 · 0 评论 -
SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network
SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network基于多任务GAN的细小物体检测摘要物体检测是计算机视觉中的一个基本而重要的问题。虽然在大规模检测基准(例如COCO数据集)中对大/中型物体取得了令人印象深刻的结果,但小物体的性能远远不能令人满意。原因是小物体缺乏足够详细的外观信息...翻译 2018-11-23 16:40:55 · 6793 阅读 · 18 评论 -
【CVPR2019】Camera Lens Super-Resolution
中科大团队提出的相机镜头超分辨率在CVPR2019亮相。今年在CVPR中亮相的SR文章有16篇之多,大概大家都开拓“改进模型结构来提升PSNR”之外的赛道,旷视的Meta-SR聚焦在非整数倍尺寸放大的SR。而CameraSR聚焦在相机拍摄的超分辨率。这篇文章面向相机进行超分辨率,这很容易让人联想到前段时间的华为P30,号称能拍摄月球,但不过是用超分辨率代替拍摄来“糊弄”用户,不过这种SR操作的手...原创 2019-06-25 11:29:44 · 3276 阅读 · 5 评论 -
2019-2020计算机视觉相关会议截稿时间举办时间【持续更新】
抽个空整理下CV相关的会议截稿时间和举办时间。对于想投论文的萌新而言,这个一定很有用处。持续更新,欢迎收藏。收录会议包括:CVPR, ICCV, ECCV, SIGGRAPH, IJCAI, ICML, ICLR, NIPS, MM, AAAI, BMVC, ICIP, ACCV会议 截稿时间 举办时间 CCF等级 地点 备注 主页 IJCAI...原创 2019-07-30 19:33:41 · 40367 阅读 · 10 评论 -
【AI数学】hard negative mining
困难负例挖掘(hard negative mining)是2009年rbg等人发表在TPAMI上的trick,这个trick就类似于AI模型的“错题集”,把难以区分的sample添加进去继续训练。这是一个增加正负样本discrimination的trick,可以一定程度上减少误检。原文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&...原创 2019-07-30 18:03:24 · 1178 阅读 · 0 评论 -
【CVPR2016】OHEM--online negative example mining
现在很少会关注2年以前的顶会论文了,但是像OHEM这样的经典论文还是值得一读。果然论文作者列表里有rbg大神的都是经典文章。国际惯例,先给出文章标题和链接:标题:Training Region-based Object Detectors with Online Hard Example Mining链接:https://arxiv.org/pdf/1604.03540.pdf本文避免...原创 2019-08-13 17:47:17 · 1451 阅读 · 0 评论 -
【ECCV2018】Unsupervised Hard Example Mining from Videos for Object Detection
这篇文章是ECCV2018里唯一的HEM方面的文章,是UMass的研究人员提出的目标检测方面的难例挖掘算法。HEM是“难例挖掘”的意思,让算法能够自己找到很难区分的样本,然后进一步供以训练。最后使得算法可以更好地区分难例。举个栗子:在目标检测算法中,检测器经常会有错检,比如它的目标是检测篮球,但它很容易检测到光头上去。那这个光头,就是一个难例。HEM可以找到这些难例,然后进行针对性训练,以...原创 2019-08-14 15:30:17 · 826 阅读 · 2 评论 -
Sub-pixel Convolution(子像素卷积)
Sub-pixel convolution是一种巧妙的图像及特征图upscale的方法,又叫做pixel shuffle(像素洗牌)。我们知道,用深度学习处理图像的话,经常需要对特征图放大。常见的方法有直接上采样,双线性插值,反卷积等等。本文主要介绍一种在超分辨率中经常使用的upscale方法——sub-pixel convolution。采用CNN对feature map进行放大的方法,除了...原创 2018-12-12 16:49:55 · 35592 阅读 · 3 评论