
MILVLG
文章平均质量分 93
该专栏是关于深度学习的一些个人笔记
大白羊_Aries
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【论文】12-in-1
【论文】Lu, Jiasen, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, and Stefan Lee. 12-in-1: Multitask vision and language representation learning. (pdf)What is 12-in-1 ?针对之前的工作,作者认为将每个任务数据集分裂开进行预训练的方法忽略了语言和视觉之间潜在且统一的联系,fine-tuning 后模型输出的结果是只针对某一特定任务的独立模型,.原创 2021-10-21 22:22:25 · 418 阅读 · 0 评论 -
【论文】MCAN
【论文】zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, and Qi Tian. Deep modular co-attention networks for visual question answering. (pdf)What is MCANMCAN 主要工作可以总结为下面两点:模仿 transformer 设计了两个注意力单元作为 Modular Co-Attention(MAC) layer 的基本组成元件—— general attention .原创 2021-10-15 22:04:54 · 2152 阅读 · 0 评论 -
【综述】NLP 对抗训练(FGM、PGD、FreeAT、YOPO、FreeLB、SMART)
在对抗训练中关键的是需要找到对抗样本,通常是对原始的输入添加一定的扰动来构造,然后放给模型训练,这样模型就有了识别对抗样本的能力。其中的关键技术在于如果构造扰动,使得模型在不同的攻击样本中均能够具备较强的识别性对抗训练,简单来说,就是在原始输入样本 xxx 上加上一个扰动 radvr_{adv}radv(在下文中有时记为 δ\deltaδ),得到对抗样本后,用其进行训练。2018 年 Madry 针对对抗学习定义了一个 Min-Max 的公式1,即minθE(x,y)∼D[maxradv∈S&nbs原创 2021-10-14 23:17:19 · 6153 阅读 · 2 评论 -
【论文】VILLA
【论文】Gan, Zhe, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, and Jingjing Liu. Large-ScaleAdversarial Training for Vision-and-Language Representation Learning. (pdf)What is VILLAVILLA(Vision-and-Language Large-scale Adversarial training)第一次在跨模态预训练的任务中.原创 2021-10-13 21:21:52 · 413 阅读 · 0 评论 -
【论文】12-in-1
【论文】Lu, Jiasen, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, and Stefan Lee. 12-in-1: Multitask vision and language representation learning. (pdf)What is 12-in-1 ?针对之前的工作,作者认为将每个任务数据集分裂开进行预训练的方法忽略了语言和视觉之间潜在且统一的联系,fine-tuning 后模型输出的结果是只针对某一特定任务的独立模型,.原创 2021-10-12 19:44:18 · 404 阅读 · 0 评论 -
【论文】UNITER
【论文】Chen, Yen-Chun, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, andJingjing Liu. UNITER: UNiversal Image-TExt Representation Learning. (pdf)What is UNITERUNITER 主要的不同是给多模态社区带来了新的同于 ViLBERT、LXMERT 的路线——在模态特征融合方面,可以共享一个编码器。虽.原创 2021-10-11 18:36:46 · 751 阅读 · 0 评论 -
【论文】LXMERT
【论文】Tan, Hao, and Mohit Bansal. Lxmert: Learning cross-modality encoder representations fromtransformers. (pdf)Why is LXMERT和 ViLBERT 一样,LXMERT 主要也是为了解决两种模态的之间没有交互的问题。在 LXMERT 中作者通过 3 种编码器的叠加构建了一个大型的 transformer 模型,这三个编码器分别为:对象关系编码器,语言编码器和跨模态编码器。同时,作.原创 2021-10-11 10:50:15 · 766 阅读 · 0 评论 -
【论文】ViLBERT
【论文】Lu, Jiasen, Dhruv Batra, Devi Parikh, and Stefan Lee. Vilbert: Pretraining task-agnosticvisiolinguistic representations for vision-and-language tasks. (pdf)What is ViLBERT以往的 vision-and-language 任务都是先预训练好独立语言和视觉模型,然后针对特定的任务进行学习。这种方法的问题明显,就是缺少两者之间.原创 2021-10-07 15:40:17 · 667 阅读 · 0 评论 -
【论文】BERT
【论文】acob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova.2018. BERT: Pre-training ofDeep Bidirectional Transformers for Language Understanding. (pdf)Why is BERT以往的预训练模型的结构会受到单向语言模型(从左到右或者从右到左)的限制,因而也限制了模型的表征能力,使其只能获取单方面的上下文信息BERT(Bidirection.原创 2021-10-04 18:43:33 · 716 阅读 · 0 评论 -
【论文】Faster RCNN
【论文】Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.(pdf)整体框架Faster RCNN 可以分为 4 个大模块;Conv Layers用于图片的特征提取,经过一系列的 conv + relu + pooling 的特征映射Region Proposal Network.原创 2021-10-02 20:45:02 · 371 阅读 · 0 评论 -
【论文】Multimodal Transformer
【论文】Yu, Jun, Jing Li, Zhou Yu, and Qingming Huang. Multimodal transformer with multi-view visualrepresentation for image captioning. (pdf)Why is MT model以往流行的方式都是使用 encoder-decoder 结构,在 encoder使用 CNN 提取局部视觉特征,decoder 使用 RNN 根据视觉特征生成 caption,这些方式有如下的一.原创 2021-10-02 20:42:29 · 2207 阅读 · 0 评论 -
【论文】DETR
Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov,Sergey Zagoruyko. End-to-End Object Detection with Transformers. (pdf)什么是 DETR ?DETR 是第一个提出基于 Transformer 的端到端目标检测,没有了 NMS、anchor 等等操作,其效果和 Faster RCNN 相当(在大物体上超过了 .原创 2021-10-02 20:41:27 · 3171 阅读 · 2 评论 -
【论文】Bottom-Up Attention
【论文】Anderson, Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. Bottom-up and top-down attention for image captioning and visual questionanswering.(pdf)Motivation我们先区分一下两种注意方式,top-down attention,这种注意力方式由非视觉.原创 2021-10-02 20:40:38 · 2568 阅读 · 2 评论 -
【论文】Fast RCNN
【论文】Ross Girshick. Fast R-CNN. (pdf)Why is Fast RCNNRCNN 存在的问题:训练分多阶段进行(1)fine-tune ConvNet;(2)fit SVMs to CovNet features;(3)learn bbox regression训练耗时、占内存从磁盘读出图片然后再对 object proposal 提取特征测试时检测速度慢测试时对每张图片的每个 object proposal 提取特征,每张图片提取 2k 个 objec.原创 2021-09-18 10:07:39 · 194 阅读 · 0 评论 -
【论文】MLB
【论文】Kim, Jin-Hwa, Kyoung-Woon On, Woosang Lim, Jeonghee Kim, Jung-Woo Ha, and Byoung-Tak Zhang. Hadamard product for low-rank bilinear pooling. pdfMCB 有两个问题;一个问题出在采样方式上,MCB 依赖于 E[⟨Ψ(x,h,s),Ψ(y,h,s)⟩]=⟨x,y⟩E[\left \langle \Psi(x, h, s), \Psi(y, h, s)\.原创 2021-09-17 10:07:26 · 788 阅读 · 0 评论 -
常见 Python 问题总结
pickle.load()在 python3 中进行数据的加载与在 python2 中不同,在 python2 中通过 import urllib; urllib.load() 进行数据的加载,但是 python3 中通过 import pickle;pickle.load() 进行数据的加载,但是在进行数据的加载需要注意一些地方,例如:在运行程序的时候就碰到过如下的问题:'ascii' codec can't decode byte 0x8b in position 6: ordinal not in原创 2021-08-02 16:55:10 · 240 阅读 · 0 评论 -
【论文】MCB
【论文】Fukui, Akira, Dong Huk Park, Daylen Yang, Anna Rohrbach, Trevor Darrell, and Marcus Rohrbach. Multimodal compact bilinear pooling for visual question answering and visual grounding. (pdf)对于像视觉问答、视觉定位这样的多模态任务,需要融合不同类型模型的向量得到一个 joint representation传.原创 2021-09-15 14:49:12 · 2277 阅读 · 0 评论 -
【论文】Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge
【论文】eney, Damien, Peter Anderson, Xiaodong He, and Anton Van Den Hengel. Tips and tricks for visual question answering: Learnings from the 2017 challenge.(pdf)主要思想论文提出一些细节上优化提升 VQA 的方法,主要包括如下:sigmoid output:在结果预测时,允许有多个答案,对每个答案采用 sigmoid 方法预测use sof.原创 2021-09-13 17:48:26 · 203 阅读 · 0 评论 -
【论文】RCNN
【论文】Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.(pdf)RCNN 进行物体检.原创 2021-09-11 18:47:07 · 227 阅读 · 0 评论 -
【论文】GAN
【论文】Goodfellow I J , Pouget-Abadie J , Mirza M , et al. Generative Adversarial Networks[J].(pdf)Generation生成(generation)就是模型通过学习一些数据,然后生成类似的数据以前很早就有生成技术,比如自编码器我们训练一个编码器,然后将图片转换为编码,然后再训练有一个解码器,吧编码转换为一张图片,接着计算得到图片和输入图片之间的 MSE(mean square error),训练完成之后.原创 2021-09-11 14:43:04 · 469 阅读 · 0 评论 -
【论文】Group Normalization
【论文】Wu Y , He K . Group Normalization[J].(pdf)BatchNorm 有一个很大的问题——随着 batch_size 的减小,BN 的错误会急剧增加,这是由于小批量不正确统计估计导致的。于是,我们就又有了 Group Normalization 作为 BN 的替代,GN 将通道化成组,然后在每一个组中计算用于归一化的均值和方差如今,许多的模型由于显存的限制都使用了较小的 batch_size,但是根据上图显示结果,这会导致非常严重的模型性能下降。例如,F.原创 2021-09-10 09:47:41 · 422 阅读 · 0 评论 -
【论文】LayerNorm
【论文】Ba J L, Kiros J R, Hinton G E. Layer normalization[J].(pdf)我们在 BatchNorm 的分析中也指出 BatchNorm 存在两个问题,一是小批量采样太小会导致结果不稳定,二是对于 RNN 网络 BatchNorm 并不适合于是,本文提出了 『层归一化』,一种独立于 batch_size 的算法,所以无论样本数多少都不会影响参与 LayerNorm 计算的数据Layer normalization设 HHH 是某一层中的隐藏结点.原创 2021-09-08 19:26:15 · 1460 阅读 · 0 评论 -
【论文】BatchNorm
BatchNorm主要解决的问题机器学习领域有一个很重要的基础假设:iid(独立同分布),即训练数据和测试数据独立且服从同一分布但是这一点并不符合真实的实践情况,BatchNorm 指出了下面两种问题:『Internal Convariate Shift』 这个术语主要描述的是:在每一次迭代更新之后,上一层网络的输出数据经过这一层网络计算之后,数据的分布会发生变化,为下一层网络的学习带来了困难(神经网络本来就是学习数据的分布,要是分布一直在变,学习就很难了),这个现象我们就称为 Internal Co原创 2021-09-08 10:00:21 · 916 阅读 · 0 评论 -
【总结】Update Rules
经验总结一般框架定义:待优化参数 θ\thetaθ假设函数 hθ(x)h_\theta(x)hθ(x),在监督学习中,为了拟合输入样本,我们都会有一个假设函数损失函数 J(θ)=∑i=1m(hθ(xi)−yi)2J(\theta)=\overset{m}{\underset{i=1}{\sum}}(h_\theta(x_i)-y_i)^2J(θ)=i=1∑m(hθ(xi)−yi)2学习率 α\alphaα流程:计算损失函数关于此时参数的梯度 ▽θJ(θ)\bigtrian原创 2021-09-07 16:15:46 · 365 阅读 · 0 评论 -
【论文】Adam
【论文】Kingma D , Ba J . Adam: A Method for Stochastic Optimization[J]. Computer ence, 2014.(pdf)论文首次提出了 Adam 算法——基于一阶导数的随机梯度下降算法Adam 是对 SGD、AdaGrad 和 RMSProp 算法的优化Adam 结合 AdaGrad 和 RMSProp 两种算法的优点,对梯度的一阶矩估计和二阶矩估计都进行综合考虑,具体算法如下算法流程,计算 ttt 时刻目标函数对 θ\t.原创 2021-09-03 20:05:03 · 1721 阅读 · 0 评论 -
【论文】DenseNet
【论文】Huang G , Liu Z , Laurens V D M , et al. Densely Connected Convolutional Networks[J]. 2016.(pdf)【新颖点】DenseNet 优点缓解了梯度消失的问题,加强了特征传播,鼓励特征重用,大大减少了参数的数量DenseNet 概述DenseNet 为了保证网络层之间的最大信息流,将所有层直接彼此连接起来。为了保证前馈特性,每个层从前面的所有层获得额外的输入,并将自己的特征映射传递给后面的所有层因为.原创 2021-09-02 16:03:20 · 730 阅读 · 0 评论 -
【论文】ResNet
【论文】He K , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[J]. 2016.(pdf)【新颖点】深度网络退化问题从经验来看,网络的深度对模型的性能至关重要,当网络层数增加后,网络可以进行更复杂的特征模式的提取,但是这却只是经验上的判断。ResNet 的作者通过实验数据说明,56 层的网络不论是训练时错误率还是测试时错误率都高于 20 层网络。这不是因为深层网络存在的梯度消失或爆照问题引起的,我们.原创 2021-09-02 13:57:01 · 735 阅读 · 0 评论 -
【论文】GoogleNet Inception V1
【论文】Szegedy C , Liu W , Jia Y , et al. Going Deeper with Convolutions[J]. 2014.(pdf)【新颖点】保证算力的情况下增大增大宽度和深度宽度:利用 Inception 结构同时执行多个网络结构深度:利用辅助分类器防止梯度消失Inception V1我们先说一下为什么要提出 Inception在早期,大家都尽可能的想加深加宽网络,但是一味的增加还是有很多问题:参数越多,计算复杂复杂度越大网络越深,越容易出现.原创 2021-09-01 21:07:06 · 230 阅读 · 0 评论 -
【论文】VGGNet
【论文】Simonyan K , Zisserman A . Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer ence, 2014.(pdf)【新颖点】更深的网络使用小卷积核 3×33\times33×3 和 1×11\times11×1 替代大卷积核多尺度训练及预测网络结构比较常见的为 VGG-16 和 VGG-19,VGGNet 把网络分成了 5 段,每段都将多个 3×3.原创 2021-09-01 17:04:04 · 242 阅读 · 0 评论 -
【论文】AlexNet
[论文] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems. 2012.(pdf)网络结构首先,我们说明一下论文中将网络分为上下两个部分是考虑到对应两块 GPU 用于计算,只有到了特定的网络层之后才需要两块.原创 2021-09-01 15:01:55 · 374 阅读 · 0 评论 -
CS231n 课程(笔记内容 by Aries.Y)
图像分类图像分类的任务,就是对于一个给定的图像,预测它属于的那个分类标签(或者 给出属于一些列不同标签的可能性)好的图像分类模型能够在维持分类结论稳定的同时,保持堆类间差异足够敏感数据驱动的方法就是像教小孩子看图识物一样:给计算机很多数据,然后实现学习算法,让计算机学习到每个类的外形图像分类的流程大致分为:输入:输入是包含N个图像的集合,每个图像的标签是K种分类标签中的一种。这个集合称为训练集学习:这一步的任务是使用训练集来学习每个类到底长什么样。一般该步骤叫做训练分类器或者学习一个模型评价原创 2021-08-01 18:48:34 · 902 阅读 · 0 评论 -
【摘记】ROI Pooling and ROI Align
什么是 ROI目标检测通常可以分为两个阶段:Region proposal:给定一张输入图片找出所有物体可能存在的所有位置。这一阶段的输出应该是一系列物体可能位置的 bounding box,这些通常就被称为region proposals或 者 regions of interest(ROI),在这一过程中用到的方法是selective search(Fast R-CNN)或 RPN (F...原创 2020-05-07 15:13:28 · 416 阅读 · 0 评论 -
【摘记】YOLO V4
【说在最前面的话】YOLO V4 整合了 Weighted-Residual-Connections(WRC), Cross-Stage-Partial-connections(CSP),Cross mini-Batch Normalization(CmBN),Self-adversarial-training(SAT),Mish-activation Mosaic data augmenta...原创 2020-05-05 21:27:37 · 461 阅读 · 0 评论 -
【详解】YOLO V2 和 YOLO9000
下面主要就介绍 V2 在 V1 基础上的改进1. BNV2 使用 Batch Normalization 对网络进行优化,通过对每一个卷积层增加 BN 处理,最终使得 V2 的 mAP 提高了 2%2. High resolution classifier在 V2 之前的业界标准检测方法都是先把分类器(即卷积分类网络)放在 ImageNet 上进行预训练,这样卷积网络对物体更敏感。在预训练...原创 2020-05-05 15:59:54 · 381 阅读 · 0 评论 -
【详解】 YOLO V3
对于 YOLO V3,我们就不逐条逐条分析了,因为原文的作者也认为 V3 只是对他们一年工作的总结,不能称为一篇完整的论文。网络架构直接来看看网络架构吧 (∗ ̄▽ ̄)((≧︶≦∗)( * ̄▽ ̄)((≧︶≦*)(∗ ̄▽ ̄)((≧︶≦∗)可以看得出来,V3 相较于 V2 的改进有很明显的两点:使用了残差模型加入了 FPN作者将 Darknet-19 改成了 Darknet-53,在 ...原创 2020-05-05 17:12:21 · 336 阅读 · 0 评论 -
【详解】YOLO V1
You Only Look Once: Unified, Real-Time Object Detection针对问题:目标检测1. 核心思想YOLO的核心思想就是利用整张图片作为网络的输入,直接在输出层回归 bounding box 的位置和所属类别。YOLO将一幅图像分成S×S(S=7)S\times S(S=7)S×S(S=7)个网格(grid cell),每个网格要预测B(B=2)...原创 2020-05-03 19:45:08 · 982 阅读 · 0 评论 -
Re-ID18、19 paper list(局部特征)
Re-ID18、19 paper list局部特征1819ABD-Net: Attentive but Diverse Person Re-IdentificationMixed High-Order Attention Network for Person Re-IdentificationSelf-Critical Attention Learning for Person Re-I...原创 2020-01-01 15:41:12 · 755 阅读 · 0 评论 -
【摘记】Mixed High-Order Attention Network for Person Re-Identification
Mixed High-Order Attention Network for Person Re-Identification原创 2019-12-29 16:00:23 · 1390 阅读 · 0 评论 -
【摘记】ABD-Net: Attentive but diverse Person Re-Id
ABD-Net: Attentive but diverse Person Re-Id针对问题:局部特征新颖点:结合通道和空间信息,避免注意力机制过度集中于前景加入了多样性限制,避免过度集中于相关的、冗余细节特征注意力机制中的遮罩直接是通过re-id数据集训练得到将两个注意力模块融入到一个主干网络中,更加轻量级提出了spectral value difference orthogo...原创 2019-12-28 20:26:50 · 2963 阅读 · 2 评论 -
【转载】Dilated Convolution 简单介绍
本次介绍一篇有关语义分割的文章,其核心思想是如何不失分辨率的扩大感受野,该方法已被caffe默认支持。 该思想也可以应用到目标检测上来。文章链接: 《MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS》github项目链接: https://g...原创 2019-03-08 12:48:40 · 378 阅读 · 0 评论