
CV的碎碎念
文章平均质量分 92
这里将会分享自己读到的CV论文以及一些自己的想法
fond_dependent
follow your deream,follow your code
展开
-
我们谈一下标签正则化(标签平滑、知识蒸馏、知识精炼)
0. 引言关于正则化,大家都非常熟悉。深度神经网络由于其强大的特征提取能力,近年来在各种任务中得到了广泛而成功的应用。然而,DNN通常包含数以百万计的可训练参数,这很容易导致过拟合问题。为了解决这个问题,已经开发了许多正则化方法,包括参数正则化(例如dropout)、数据正则化(例如数据增强)和标签正则化(例如标签平滑),以避免过度拟合问题。原创 2022-04-29 17:34:10 · 4310 阅读 · 1 评论 -
全方位总结和深入循环神经网络RNN
引言对于NLP任务有个很典型的任务,叫做情感分类,还有对话机器人,诗词生成,还有slot填充任务等等都是可以用RNN来做的(这里我们说的RNN是广义的RNN)。为什么这些任务需要RNN呢?因为某些任务需要能够更好地处理序列信息,即前面的输入和后面的输入是有关系的,因此需要模型具备记忆能力。简单版本RNNRNN为什么会有记忆能力呢,首先我们看一下RNN的结构:xxx是一个向量,它表示某个时刻输入层的值(多个时刻的xxx组成一个序列);sss是一个向量,它表示隐藏层的值;UUU是输入层原创 2020-09-01 23:35:13 · 2513 阅读 · 0 评论 -
深度神经网络(DNN)&& 卷积神经网络(CNN)
引言原创 2020-08-31 17:02:24 · 4828 阅读 · 0 评论 -
【数据增广】AutoAugment: Learning Augmentation Policies from Data
引言AutoAugment: Learning Augmentation Policies from Data摘要在本文中,我们将更深入地研究图像的数据增强,并描述一个称为AutoAugment的简单过程来搜索改进的数据增强策略。我们的关键见解是创建数据扩充策略的搜索空间,直接在感兴趣的数据集上评估特定策略的质量。在我们的实现中,我们设计了一个搜索空间,其中一个策略由许多子策略组成,其中一个...原创 2020-05-05 14:49:54 · 3609 阅读 · 0 评论 -
【数据增广】Adversarial Learning of General Transformations for Data Augmentation
引言我们知道STN(Spatial Trandfoemer Networks),它最初的目的是来对图像或者特征进行各种空间变形,从而可以实现矫正图像字符或者文本的作用,详情可以参照下面博客:STN介绍在最初的使用中,STN的目的是学习转换输入数据,使其对某些转换保持不变。相反,我们的方法使用STN以对抗的方式生成增强样本的分布。但是STN既然可以来矫正图像,那么当然可以扭曲图像,即将规范的...原创 2020-05-04 16:56:38 · 2640 阅读 · 2 评论 -
谈一谈场景文本图片的超分辨
引言文本图像的超分辨任务做的不是很多,有专门针对文本识别的也有针对文本检测的,总而言之,带有文本序列的图像和在imangeNet里的图像是不一样的,那我们来仔细看一看文本图像大家都是怎么做的TextSR: Content-Aware Text Super-Resolution Guided by Recognition(ICML2019)动机现在文本识别技术已经在干净文本图像上取得了令人...原创 2020-04-27 20:17:58 · 5117 阅读 · 5 评论 -
对抗攻击经典论文剖析(下)【DeepFool、One pixel attack、Universal adversarial perturbations、ATN】
引言上一篇讲的几篇经典对抗攻击论文主要讲的是如何在梯度上扰动或者优化,即尽可能保证下的扰动,不被人类发现,却大大降低了模型的性能。这一篇我们将会有一些更有意思的对抗攻击样本生成,包括像素级别的扰动以及样本生成(DeepFool、One pixel attack、Universal adversarial perturbations、ATN)。DeepFool: a simple and acc...原创 2020-04-26 15:05:00 · 5748 阅读 · 1 评论 -
谈一谈在OCR/场景文本识别中的对抗攻击
引言目前对抗攻击在计算机视觉中如火如荼,作为计算机视觉的一个子领域OCR,文本识别和文本检测领域中对抗攻击的任务并不多,其中文本检测可以说是一种目标检测的任务,所以目标检测的攻击方法可以直接应用在文本检测中;文本识别是一种序列分类的任务和很多图像分类任务不同,所以攻击方法不能直接迁移,下面我们对三篇论文来看一看他们的攻击思路。Adaptive Adversarial Attack on Sce...原创 2020-04-22 19:13:21 · 5971 阅读 · 3 评论 -
对抗攻击经典论文剖析(上)【FGSM、BIM、PGD、Carlini and Wagner Attacks (C&W)】
最近做数据增广做的心累,想要看一看对抗攻击!这个博文会对四种经典算法进行剖析,分别是FGSM、BIM、PGD、Carlini and Wagner Attacks (C&W)。对抗攻击和防御首先我们简单来说一说对抗攻击和防御的目的。攻击就是对原始样本增加扰动生成对抗版本最大化损失函数,同时扰动尽可能地小,让人类肉眼无法察觉;防御问题是基于这种攻击方法训练一个更具鲁棒性的神经网络。数学表...原创 2020-04-21 16:43:05 · 23321 阅读 · 3 评论 -
【文本图像超分辨】Scene Text Image Super-Resolution in the Wild
引言这是一篇最新发出来的论文,看样子要投NIPS2020,这个论文可以看作我以前介绍过的TextSR的升级版,两个作者都是同一个人。这篇论文的主要想法就是提出一个专门用来进行文本超分辨的数据集,并且提出了一个专门用来进行文本超分辨的网络。Scene Text Image Super-Resolution in the Wild摘要分辨率的文本图像通常出现在自然场景中,如手机捕获的文档。识别低分辨率文本图像具有挑战性,因为它们丢失了详细的内容信息,导致识别精度差。一个直观的解决方案是引入超分辨率(SR原创 2020-05-12 22:53:23 · 12071 阅读 · 42 评论 -
【频域深度学习】Learning in the Frequency Domain
引言我们应该都学习过信号与系统,知道信号可以分为时域、空间域以及频域等等。显然一般的深度学习方法,以图像为例,模型的输入为图像本身,属于空间域信息,那么我们是否可以利用频域信息来进行图像处理呢?转换为频域最常见的是通过傅里叶变换从时域或者空间域转换到频域。傅里叶变换将信号信息转换成每个成分频率上的幅度和相位。第一篇用CNN在频域(DCT系数)而不是空域(RGB)上直接学习的文章是On using CNN with DCT based Image Data,这篇文章在图像分类任务上做的实验,包括MNIS原创 2020-05-14 16:37:54 · 10728 阅读 · 6 评论