
论文分享
文章平均质量分 94
猫猫与橙子
这个作者很懒,什么都没留下…
展开
-
【ocr 文字检测】DocSegTr: An Instance-Level End-to-End Document Image Segmentation Transformer
要理解复杂布局的文档首先就需要进行信息提取。本文目的就是通过实例级别分割获得不同的文章目标(different document objects),如:标题,章节,图片,表格等;文中提出一个 Document Image Segmentation Transformer(DocSegTr),用于复杂布局元素的实例级分割;原创 2022-02-24 16:56:39 · 1447 阅读 · 0 评论 -
【多方向文字检测】《efficient scene text detection with textual attention tower》
论文链接:https://arxiv.org/abs/2002.03741团队:西安电子科技大学 西澳大学 发布于:ICASSP(CCFB类)会议目录Abstract2.PROPOSED METHOD2.1 Architecture Overview2.2. Textual Attention Tower2.3 Loss function3.Experiments3.1 Benchmark Datasets and Data Augmentation3.2 ...原创 2020-09-09 10:47:04 · 627 阅读 · 0 评论 -
【注意力机制】《DCANet: Learning Connected Attentions for Convolutional Neural Networks》
文章链接:https://arxiv.org/abs/2007.05099作者团队:北德克萨斯州大学目录1.Abstract2.Deep Connected Attention2.1Revisiting Self-Attention Blocks2.2 Attention Connection2.3 Size Matching2.4 Multi-dimensional attention connection4.Experiments4.1 Classificatio原创 2020-09-03 15:11:56 · 2591 阅读 · 0 评论 -
【字符检测DBNet】《Real-time scene Text Detection with Differentiable Binarization》
论文链接:https://arxiv.org/pdf/1911.08947.pdf工程链接:https://github.com/MhLiao/DB该算法的特点就是:后处理速度快,与PANNet相比,可以节省差不多一半的时间(在本人台式机cpu运行);0.算法的整体框架主要三个步骤:首先:图像输入特征提取主干,提取特征; 其次:特征金字塔上采样到相同的尺寸,并进行特征级联到特征F; ...原创 2020-08-04 17:50:27 · 3254 阅读 · 1 评论 -
[人脸识别] Towards Flops-constrained Face Recognition
论文链接|:https://arxiv.org/pdf/1909.00632.pdf竞赛地址|:https://ibug.doc.ic.ac.uk/resources/lightweight-face-recognition-challenge-workshop/出处| :ICCV19-Lightweight face recognition challenge (排名:第一)作者|:来自香港中文大学和商汤科技目录一、该文的关键内容二、训练细节三、新的loss函数四、网络结构原创 2020-06-29 13:31:30 · 541 阅读 · 0 评论 -
【字符识别 end-to-end】SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
1.文字识别中常用的编码解码框架可用于处理透视失真(perspective distortion)和曲线形状(curve shape)的文字,但是依然无法处理:图像模糊,明暗不均衡的图像,以及字符不完整的图像。2.作者认为当前的识别方法都是基于局部视觉特征,而不是采用的全局语义信息。基于以上两点,作者提出了语义增强的编码-解码框架用于识别低质量的场景文字。语义信息用于监督编码模块,初始化解码模块。同时作者将ASTER方法整合到给方法中来(作为一个范例),实现了端对端的识别。原创 2020-06-22 16:49:23 · 1493 阅读 · 0 评论 -
【ocr:end to end】ASTER :An Attentional Scene Text Recognizer with Flexible Rectification
文中需要学习的知识点:Sequence to Sequence Learning with Neural Networkssequence to sequence model小记Beam Search Algorithm理解LSTM(通俗易懂版)Thin Plate Spline(薄板样条函数)薄板样条函数(Thin plate splines)的讨论与分析Posit...原创 2020-04-16 14:56:50 · 394 阅读 · 0 评论 -
【人脸识别】AirFace:Lightweight and Efficinet Model for Face Recognition
论文链接:https://arxiv.org/abs/1907.12256作者提出该方法的动机:在使用MobileFaceNet从头训练使用ArcFaceloss,使用小的输入尺寸,模型难以拟合(所以作者提出了Li-ArcFace); 为人脸识别设计的小网络较少;论文的贡献:基于ArcFace loss提出了Air-Face loss 改进了MobileFace网络结构; 引入...原创 2020-03-19 22:31:31 · 1967 阅读 · 4 评论 -
【模型压缩】Channel Pruning via Optimal Thresholding
论文链接:https://arxiv.org/pdf/2003.04566.pdf动机:现在压缩工作中,通过预定义的度量(metric)计算出的阈值进行模型剪枝,这种阈值忽略了不同层的变化和权值分布的不同,所以这种剪枝方法通常过剪枝和欠剪枝得到一个次优的结果。本篇论文中,作者提出了一个方法:最优阈值(OT,Optimal Thresholding),每层剪枝使用不同的阈值。通过使用OT,保...原创 2020-03-16 18:33:30 · 871 阅读 · 0 评论 -
【人脸属性分类】Deep Multi-task Multi-label CNN for Effective Facial Attribute Classification(FAC)
论文链接:1.Abstract人脸检测,人脸对齐和FAC问题都是被独立研究,没有探索过这三类问题的关系;2)人脸属性预测都是使用的相同的网络结构,但人脸属性的学习复杂度是不一样的;针对以上的两点问题,作者提出了一个多任务多标签CNN,DMM-CNN(deep multi-task multi-label CNN);DMM-CNN将人脸关键点和人脸检测联系起来,同时作者将人脸属性分为两组:客...原创 2020-02-25 17:26:39 · 2397 阅读 · 1 评论 -
【人脸关键点检测】High-Resolution Representations for Labeling Pixels and Regions
论文链接:https://arxiv.org/pdf/1904.04514.pdf工程链接:https://github.com/maomaoyuchengzi/HRNet-Facial-Landmark-Detection 《High-Resolution Representations for Labelin...原创 2020-02-09 17:06:12 · 891 阅读 · 0 评论 -
【网络结构,人体姿态估计】Deep High-resolution Representation Learning for Human Pose Estimation
论文链接:https://arxiv.org/pdf/1902.09212.pdf工程链接:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch最近在看人脸关键点检测,刚好看到了有人使用了HRNet(这篇论文中作者提出的方法),所以就被吸引了,看看该网络结构的特殊性;(2020-2-9) ...原创 2020-02-09 16:54:31 · 934 阅读 · 0 评论 -
【小目标检测】Group Sampling for Scale Invariant Face Detection
了解一些基础内容:FPN(Feature Pyramid network)?参考:https://blog.youkuaiyun.com/weixin_40683960/article/details/79055537RPN(Region Proposal Network)?论文解析参考:https://blog.youkuaiyun.com/u014380165/article/details/10141...原创 2019-10-12 11:40:53 · 1551 阅读 · 2 评论 -
【论文—data】Dynamic curriculum learning for imbalanced data classification
本文针对的问题:在人的属性分析中,最大的挑战就是数据分布的平衡;之前的方法:re-sampling 和 cost-sensitive learning(这两个方法是什么,后文会介绍)。问题:以上的方法需要先验知识;作者提出了一种方法啊:Dynamic Curriculum Learning(DCL),泛化性能,辨别性DCL包括两级课程计划表(two-level curriculum s...翻译 2019-01-30 20:33:05 · 3008 阅读 · 2 评论 -
【论文-人脸剪枝】Low-Cost Transfer Learning of Face Tasks
这篇文章是要干什么?文中这样解释,VGG-Face最后一层的卷积层拥有512个filters,这层的512个filters中有些filters也可以处理本职工作以外的face tasks,用下图描述:作者觉得如果将这些与本职任务不相关的filter剪掉,就可以提速减少内存消耗;那问题来了:1)怎样知道卷积层中有哪些不做本职工作又占着位置的filter了? ...翻译 2019-01-21 15:45:28 · 518 阅读 · 0 评论 -
【论文-人脸关键点检测】Deep Alignment Network:A convolutional neural network for robust face alignment
论文:CVPR2017,源码开放概述:DAN-Deep Alignment Network,发表于CVPR-2017。以往级联神经网络输入的是图像的某一部分,与以往不同,DAN各阶段网络的输入均为整张图片。当网络均采用整张图片作为输入时,DAN可以有效的克服头部姿态以及初始化带来的问题,从而得到更好的检测效果。之所以DAN能将整张图片作为输入,是因为其加入了关键点热图(Landmark Hea...原创 2019-01-14 15:28:38 · 1671 阅读 · 2 评论 -
【distillation】Triplet distillation for deep face recognition
论文链接:https://arxiv.org/abs/1905.04457论文来源:浙江大学论文的主旨:人脸识别中常使用tripletloss,而fixmargin不同身份之间相似结构的信息,然后作者就提出了tripletdistillation,实现将大网络结构向小网络进行迁移学习;所用数据集LFW,AgeDB,CPLFW;方法的具体介绍:tripletloss,需要三个...原创 2019-05-16 17:15:28 · 774 阅读 · 3 评论 -
【distill.&transfer】Deep Face Recognition Model Compression via Knowledge Transfer and Distillation
论文链接:https://arxiv.org/abs/1906.00619作者的动机:本篇文章提出了一种对人脸识别模型压缩的方法:基于student-teacher paradigm 的脸部识别运用;模型加速是通过降低输入图像的精度,使用相同的网络结构,从而使模型参数不减少,由于图像尺寸减少,数据储存空间也随之减少,整体架构图:作者提出的方法:作者使用了三种方法来提升输入低精度...原创 2019-06-12 16:27:25 · 690 阅读 · 0 评论 -
【distillation】shrinkTeaNet:Million-scale Lightweight Face Recognition via Shrinking T-S Networks
论文完整题目:shrinkTeaNet:Million-scale Lightweight Face Recognition via Shrinking Teacher-StudentNetworks论文链接:https://arxiv.org/abs/1905.10620v1作者的动机:性能好的人脸识别网络由于其庞大的参数和复杂的网络结构比较困难,作者想要得到一个小型但是精度又还可以与...原创 2019-06-13 17:26:01 · 1379 阅读 · 8 评论 -
Slim-CNN:A Light-Weight CNN for Face Attribute Prediction
功能:用于人脸多属性模型的提速文章链接:https://arxiv.org/abs/1907.02157作者提出了一种micro-architecture 名字叫Slim Module的轻量网络结构,网络结构中使用了depthwise separable convolutions(什么是depthwise separable convolutions,可以只看总结)这种结构,实验数据集是C...原创 2019-08-01 16:43:29 · 816 阅读 · 2 评论 -
【压缩】SlimYOLOv3:Narrower,Faster and Better for Real-Time UAV Application
论文链接:https://arxiv.org/pdf/1907.11093.pdf一篇关于对yoloV3进行压缩的论文;摘要:作者在VisDrone2018-Det benchmark dataset上进行了测试,浮点运算次数下降了~90.8%,参数量下降了92.0%,和检测精度相当的YOLOV3相比,速度快了两倍。代码可以在这里得到:https://github.com/Pengyi...原创 2019-08-09 16:07:45 · 1848 阅读 · 2 评论 -
[注意力机制]CBAM:Convolutional Block Attention Module
论文链接:https://arxiv.org/abs/1807.06521v2代码:https://github.com/luuuyi/CBAM.PyTorch/issues/8(最近在看人脸识别的轻量级网络,然后看到了与cbam相关的内容,就想尝试以下效果,是否有助于提升模型人脸识别的能力;)论文的贡献:作者提出了卷积层的注意力模块(Convolutional Block Atten...原创 2019-09-23 08:37:12 · 5793 阅读 · 4 评论 -
【multi-label】Learning a Deep ConvNet for Multi-label Classification with Partial Labels
来源:CVPR2019下载链接:https://arxiv.org/abs/1902.09720本文目的:为了减少图片中多标签标注的成本,提出了一种训练模型的方式:训练模型的样本使用标签没有标注完整的图片;作者的贡献:1)比较了多标签数据集的标注方法,作者的方法证明了使用部分标注的所有图片效果好于标注了所有标签的小数据集;2)提出了一种scalable方法用于ConvNet去学...翻译 2019-04-16 19:56:21 · 5478 阅读 · 5 评论