- 博客(52)
- 收藏
- 关注
原创 tensorrt server如何支持Pytorch模型
笔者这里先抛出一个问题,tensorrt server和tensorrt有什么关系吗?大家可以思考一下哈
2019-07-27 16:56:39
1766
1
原创 在启动tensorrt server服务时提示"libopencv_highgui.so not found"
在使用tensorrt server的ensemble models功能时,笔者把预处理打包成了一个.so文件,分类模型使用的是.pb文件,但是当使用nvidia-docker命令启动trt server镜像时,报了错误"libopencv_highgui.so.2.4 not found",笔者踩了一些坑,终于找到了问题的原因,这里记录下来,方便以后随时翻看。预处理的.so调用了opencv库...
2019-07-26 22:05:58
1590
2
原创 论文解读-CenterNet:Keypoint Triplets for Object Detection
文章目录1 背景2 动机3 算法部分3.1 后处理3.2 center region定义3.3 center pooling3.4 Cascade corner pooling3.5 优化目标4 实验部分5 思考与总结论文信息文章链接:https://arxiv.org/abs/1904.08189作者:Kaiwen Duan单位:中科院、华为诺亚方舟实验室(实习单位)代码地址:htt...
2019-05-01 11:37:19
3571
4
原创 代码bug记录
1 shell相关bug记录(1)“./configure : /bin/sh^M : bad interpreter”在linux上源码编译安装依赖库时,执行./configure命令,提示如下错误,错误提示1:./configure : /bin/sh^M : bad interpreter错误原因:源码zip压缩包中的文件为dos格式(DOS),需要转换成unix格式待修改conf...
2019-04-24 11:24:26
662
原创 视频处理相关工具
(1)从mp4文件中抽帧步骤一:安装ffmpeg步骤二:ffmpeg -i 1001654046.mp4 -vf fps=1 thumb%04d.jpg (shell命令)
2019-04-16 12:06:33
325
原创 对坐标回归任务的思考
文章目录1 前言2 回归任务的解决办法3 参考资料最近在做文档检测任务,一开始是将其看做基于像素的二分类任务,后来看了知乎上一篇基于关键点检测的文章,“深度学习实践文档检测”,看完后感触颇多,于是这里记录下来,方便以后翻看。1 前言回归任务和分类任务的区别在于,前者是预测连续值,后者是预测离散值。受此惯性思维的影响,笔者之前一直很好奇,为什么目标检测任务的坐标预测算是回归任务呢,毕竟它输出...
2019-04-14 17:40:49
2632
原创 论文解读-FCOS:Fully Convolutional One-Stage Object Detection
文章目录1 动机2 算法思想2.1 网络结构2.2 center-ness输出分支2.3 优化目标3 实验结果4 总结5 参考资料1 动机目标检测算法可以分为两大类别,anchor-based和anchor-free算法,前者是主流的做法,比如yolo-v3、ssd、faster rcnn等,它存在如下缺点,(1)引入很多需要优化的超参数, 比如anchor number、anchor s...
2019-04-07 17:25:38
6490
5
原创 在python3中将jpg转成base64并写入json
import base64with open('./aa.jpg', 'rb') as f: qrcode = base64.b64encode(f.read()).decode() """ #The following is wrong, when json.dumps is run, it will raise error "TypeError: Object of...
2019-03-20 19:47:37
4186
原创 论文解读-Feature Selective Anchor-Free Module for Single-Shot Object Detection
文章目录1 背景知识2 动机最近部分cvpr2019的论文出来了,为了能对目标检测方向的前沿算法有更多理解,笔者趁着周末,仔细阅读了Carnegie Mellon University的这篇文章。之所以选择这一篇,一是因为标题中有"Anchor-Free",立即引起了笔者的兴趣,毕竟大部分的目标检测算法还是基于Anchor的,二是论文的第二作者是Yihui He,他在模型剪枝方向做的非常不错,...
2019-03-10 21:44:02
11614
55
原创 解析稀疏特征的embedding过程
对于有监督分类模型,输入特征有两种形式,连续型特征和离散型特征。对于常见的cv任务,比如分类、检测、分割等,输入仅为图像特征,它是连续型特征。而对于多模态分类的任务,比如短视频理解与推荐,它的输入包含了用户特征、广告特征、标题特征和视频特征。对于这种同时有连续型和离散型输入特征的情况,应该如何处理呢?一句话来说,离散型特征,需要先做one-hot编码,才能送入机器学习模型中。1 为什么要做on...
2019-03-04 20:58:28
9698
4
原创 论文解读-Bag of Freebies for Training Object Detection Neural Networks
文章目录1 动机2 改进点2.1 Visually Coherent Image Mixup3 总结4 参考资料笔者在前面的博文中解读了文章“Bag of Tricks for Image Classification with Convolutional Neural Networks”,大家感兴趣的可以参见论文解读-Bag of Tricks for Image Classificatio...
2019-03-03 21:34:37
2567
原创 服务器相关知识点
1 显卡采购(1)官方产品定位个人消费级:应用于普通pc,包括Geforce GTX1080 TI和 Titan Xp等;工业应用级:应用于数据中心,包括Tesla V100、NVIDIA T4等;(2)实际应用部署在实际采购时,应该考虑日常应用场景需求,如果没特别高的要求,从性价比上来说绝对选Geforce GTX 1080 Ti“,正如网友所说,“凡是不向外提供算法服务能力的机构,都...
2019-02-27 17:50:42
964
原创 论文解读-Bag of Tricks for Image Classification with Convolutional Neural Networks
文章目录1 动机2 baseline3 改进点3.1 训练速度3.1.1 batch size调整3.1.2 Low-precision training3.1.3 实验结果3.2 网络结构3.2.1 理论3.2.2 实验结果3.3 训练过程优化3.3.1 Cosine Learning Rate Decay3.3.2 Label Smoothing3.3.3 Knowledge Distilla...
2019-02-22 20:49:53
9789
2
原创 论文解读-Rethinking on Multi-Stage Networks for Human Pose Estimation
文章目录1 动机2 算法设计2.1 更好的single-stage module2.2 Cross Stage特征融合2.3 Coarse-to-fine Supervision3 实验结果3.1 backbone的影响3.2 stages个数的影响3.3 Cross Stage特征融合的影响3.4 Coarse-to-fine Supervision的影响3.5 高斯核的影响4 总结5 参考资...
2019-02-16 17:39:47
3022
7
原创 论文解读-Stacked Hourglass Networks for Human Pose Estimation
文章目录1 动机2 网络结构2.1 单一沙漏模块2.2 intermediate supervision2.3 堆叠沙漏模块3 实验结果4 总结5 参考资料在上一篇文章中,笔者解释了对OpenPose人体关键点检测算法的思考,它是一种“bottom-to-up”的人体姿态估计算法。为了对人体姿态估计这个方向有更加深刻的认识,笔者查阅了2018年的三大顶会(CVPR/ICCV/ECCV)的文章...
2019-01-29 14:47:43
1750
原创 论文解读-Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
最近需要做视频分类相关的工作,在做技术调研过程中,了解到视频分类包含了两种形式,(1)通用的多标签视频分类,它的特点是标签为静态的,也即做分类时不需要考虑图像帧之间的关联性,因此跟基于图片的分类没什么差异了。(2)行为识别,因为是“行为”,所以这类任务需要考虑图像帧之间的关联性,比如“芭蕾舞”、“绘画”等,包含了3D卷积和Two-stream两种方法,在看了这方面的综述文章后发现是全新的方向。因为...
2019-01-27 13:44:09
2467
4
原创 目标检测算法trident network引发的思考
文章目录1 SNIP2 Trident network2.1 动机2.2 感受野和目标尺寸的关系2.3 网络结构2.3.1 SPP2.3.2 ASPP3 总结4 参考资料最新的目标检测算法“Trident Network”,单模型的mAP刷到了48.4,的确是“state-of-the-art”。笔者看了论文作者Naiyan Wang的知乎解读,感觉解释的很深刻,然后看了同行们的评论,比如有人...
2019-01-17 21:26:16
6073
2
原创 目标检测中的多尺度问题及优化-SNIP
文章目录1 检测任务的困难1.1 尺度差异1.2 domain-shift2 图像分辨率对分类任务的影响3 目标检测的影响因素3.1 图像分辨率3.2 图像中目标的尺寸3.3 数据增强3.4 结果与结论3.4.1 结果3.4.2 结论4 SNIP4.1 网络结构4.2 Q&A5 总结6 参考资料在目标检测任务中,算法的效果常常会受到多种因素的影响,比如遮挡、目标尺度变化等,在之前的一篇...
2019-01-15 16:48:31
9906
5
原创 卷积神经网络概念Q&A
1 如何计算cnn中某一层的感受野大小?回答:对于cnn中的每一个神经元,它都表征了输入图像的局部区域的信息,“感受野”指的是某一个神经元对应到输入图像的尺寸。我们都知道,越深的网络层对应的感受野越大,比如我们想知道第n层的神经元在输入图像上的感受野,那么不妨把第iii层作为“伪输入图像”,并且记该神经元在第iii层的感受野大小为RFi,其中i<=1<=nRF_{...
2019-01-11 18:27:37
504
原创 目标检测中的遮挡问题及优化
尽管目标检测算法整体上已经相对比较成熟,但是在特殊场景下的表现还有很多优化空间,比如图片中的目标有遮挡、图像运动模糊、目标为可改变形状的非刚性物体等。本文主要是针对遮挡问题,之前在做游戏目标检测时也遇到过这个问题,当时只是考虑增加训练样本的多样性,最近,笔者读了几篇解决目标检测中的遮挡问题的文章,也看了一些网友的解析,觉得若有所悟,不自觉地想把自己的理解记录下来,自认为“一万个人眼中有一万个哈姆雷...
2019-01-11 11:54:15
38878
3
原创 目标检测后处理:从nms到softer nms
对于目标检测算法,它包含了三个要素:Backbone + Head + Postprocess,上一篇文章介绍了Light Head R-CNN,它是对“head”部分的优化,对于Postprocess部分,最早用的是NMS,后面出现了Soft NMS和Softer NMS,本文将分别解释它们的动机和原理,希望能对大家有所帮助。1 NMSNMS,它的全称为“non-maximum supres...
2019-01-06 18:58:11
8616
13
原创 人脸检测算法理解之mtcnn
最近在一次交流活动中,再次听别人讲人脸检测算法mtcnn,虽然以前也断断续续听过两次,对于一些技术细节仍不清楚,为了解决自己的困惑,笔者又重拾起这一算法,在认真研读论文和思考后有了新的理解,于是记录下来。下文主要解释mtcnn中min_face_size这个参数是怎么起作用的、如何使用图像金字塔等,希望能对大家有所帮忙。1 相关知识点1.1 “network in network”作为新加坡...
2018-12-30 16:12:57
3577
3
原创 理解目标检测算法之Light Head R-CNN
文章目录1 动机2 网络结构3 实验结果4 个人总结对于目标检测任务,输入图像通常都要经历3个步骤,Backbone + Head + Postprocess(NMS),目标检测算法的优化,通常也是围绕着这3个方面展开的。针对Backbone的优化有DetNet,针对Head的优化有Light head R-CNN,针对Postprocess的优化有soft nms和softer nms。值得...
2018-12-23 18:41:59
1959
原创 理解目标检测算法之R-FCN
在上一篇博文中,笔者写到了对Roi Pooling和Roi Align的区别的理解,当时不禁觉得Mask rcnn引入了Roi Align操作,进一步优化了目标检测任务的定位精度,然后在想,如果想继续优化,又有什么可供优化的方向呢,百思不得其解。后来又一次跟同事交流这个问题,然后无意间了解到凯明大神后面又联合提出了R-FCN。然后笔者查阅了一些资料和原论文,有了自己的一些理解和体会,故这里记录下来...
2018-12-23 14:35:29
1809
原创 目标检测算法Q&A
1. 目标检测问题1. Yolo和SSD的区别是什么?回答:YOLO定位精度差,小目标检出率低;SSD是YOLO的多尺度版本,对小目标检出有改善。2. R-CNN、Fast-rcnn、Faster-rcnn的区别是什么?回答:(1)R-CNN使用selective search,然后对每个预选框做分类,缺点为穷举所有框很耗时;(2)Fast-rcnn使用selective search...
2018-12-19 19:38:27
392
原创 人工特征之SIFT和HOG
文章目录1 SIFT(局部特征)1.1 特征点检测1.2 特征点描述1.3 特征点匹配2 HOG(全局特征)2.1 特征描述子2.2 HOG特征提取步骤计算机视觉相关的任务都需要先提取特征,然后基于所提取的特征做分类、分割、视觉问答等任务。现在主流的提取特征的方法,都是采用神经网络自动提取对任务起作用的特征,使用人工设计的特征已经成为过去时了。然而,笔者认为,对于每一个算法,找准它的细分领域,...
2018-12-12 10:45:43
5892
1
原创 理解yolo系列目标检测算法
在计算机视觉任务中,如果说做的最成熟的是图像识别领域,那么紧随其后的应该就是目标检测了。笔者接触目标检测也有一段时间了,用mobilenet_ssd算法做过手机端的实时目标检测,也用faster-rcnn做过服务器端的二维码检测,尽管一直都知道yolo的效果也很不错,但没抽出时间细细研究,最近刚好闲出空来,就把yolo系列算法论文细读了一遍,在思考的过程中,也使我对之前的知识点有了新的体会,这里一...
2018-11-18 18:17:40
9062
1
原创 深度学习算法效果提升-数据
       在初学机器学习的时候,常常看到一些博友提到,做机器学习80%以上的时间都用在了处理数据上,当初不以为然。现在工作也一年多了,在实际的项目中深深地体会到了这种说法的合理性。对于深度学习算法而言,提升效果最明
2018-11-04 21:00:04
1089
原创 深度学习算法效果提升-网络结构
1. 前言 优化深度学习算法的效果可以从三个方面入手,数据+网络结构+损失函数。一般来说,外行改网络结构,内行改损失函数,公司层面收集数据。 在一般情况下,特别是手机端应用,直接拿个成熟的小网络进行迁移学习,如shufflenet、mobilenet等,是较为常见的做法。而且,由于一些开源框架提供了官方预训练的模型,只要自己的数据集和imagenet的数据类别出入不大,在其基础上做fine...
2018-11-03 21:52:01
4867
原创 对Image caption的一些理解(看图说话)
1. 背景 在计算机视觉中,图像分类和目标检测任务是比较成熟的领域,已经应用到实际的产品领域。而“看图说话”要实现的功能是,给定一张图像,计算机能告诉我们图片的内容,显然,这会使一个比较复杂的任务,因为它涉及到了如下的子任务:1)检测图像中的目标;2)目标的属性,比如颜色、尺寸等;3)目标之间的关联;4)语言模型,用于把上面的信息表述成句子;2. 相关的论文2.1 “...
2018-10-29 19:08:45
6448
原创 强化学习浅谈
一直对强化学习很感兴趣,毕业前那会也尝试着去学习,但因为当时感觉强化学习的公式晦涩难懂,没能坚持下去。最近因工作需要,又重新开始啃强化学习的知识,发现有了新的体会,故在此记录一下,以便以后随时翻看查阅。 机器学习包含了三大分支,有监督学习(或半监督)、无监督学习和强化学习。同前两者相比,强化学习具有如下特点, (1) 没有“supervisor”,只有“reward”信号; ...
2018-08-26 12:43:48
17368
4
原创 目标检测算法理解:从R-CNN到Mask R-CNN
目标检测算法理解:从R-CNN到Mask R-CNN 因为工作了以后时间比较琐碎,所以更多的时候使用onenote记录知识点,但是对于一些算法层面的东西,个人的理解毕竟是有局限的。我一直做的都是图像分类方向,最近开始接触了目标检测,也看了一些大牛的论文,虽然网上已经有很多相关的算法讲解,但是每个人对同一个问题的理解都不太一样,本文主要结合自己的理解做一下记录,也欢迎大家批评指正~ 在讲解obje
2017-10-30 21:37:52
1942
原创 matlab显示文件夹下的多副图像
最近在写深度学习算法方案的时候,需要在方案书附录中对imagenet数据集可视化,但imagenet数据集中的图像大小并不完全相同,经过一番努力,显示效果才达到导师的要求,故这里把我实现过程中的小问题记录下来,方便以后参考。 在写机器学习方面的paper时,通常需要可视化数据集。比如人脸数据集,通常每一个子文件夹下包含了一类人脸图像(这些人脸图像的大小可以各不相同、文件的命名可以没有任何规律)
2017-03-09 10:25:58
1041
原创 生成对抗网络(GAN)应用于图像分类
近年来,深度学习技术被广泛应用于各类数据处理任务中,比如图像、语音和文本。而生成对抗网络(GAN)和强化学习(RL)已经成为了深度学习框架中的两颗“明珠”。强化学习主要用于决策问题,主要的应用就是游戏,比如deepmind团队的AlphaGo。因为我的研究方向是高光谱图像的有监督分类问题,故本文主要讲解生成对抗网络及其在分类问题方面的应用。生成对抗网络框架 生成对抗网络(Generative ad
2017-02-15 22:28:39
57657
41
原创 TensorFlow中Sequence-to-Sequence样例代码详解
在NLP领域,sequence to sequence模型有很多应用,比如机器翻译、自动应答机器人等。在看懂了相关的论文后,我开始研读TensorFlow提供的源代码,刚开始看时感觉非常晦涩,现在基本都弄懂了,我在这里主要介绍Sequence-to-Sequence Models用到的理论,然后对源代码进行详解,也算是对自己这两周的学习进行一下总结,如果也能够对您有所帮助的话,那就再好不过了~seq
2016-12-12 22:43:29
25410
5
原创 SVM的原问题和对偶问题模型
这两天,我翻开沉压已久的学习笔记,看到了当初总结的SVM学习心得,为了避免不小心弄丢了,就在这里重新记录一下吧,希望对初学机器学习理论并热爱公式推导的朋友有所帮助。SVM作为一种经典的机器学习算法,在处理“小样本”问题时效果非常显著。本文主要分成三大部分,第一部分介绍一些基本知识,这些知识在SVM的公式推导过程中会用到,所以最先介绍。第二部分针对数据集线性可分的情况,推导SVM的原问题和对偶问题表达
2016-11-29 18:12:59
12317
原创 TensorFlow中RNN样例代码详解
关于RNN的理论部分已经在上一篇文章中讲过了,本文主要讲解RNN在TensorFlow中的实现。与theano不同,TensorFlow在一个更加抽象的层次上实现了RNN单元,所以调用tensorflow的API来实现RNN是比较容易的。这里先介绍TensorFlow中与RNN相关的几个比较常用的函数, (1)cell = tf.nn.rnn_cell.BasicLSTMCell(num_unit
2016-11-28 22:11:22
29167
3
原创 从循环神经网络(RNN)到LSTM网络
从循环神经网络(RNN)到LSTM网络 通常,数据的存在形式有语音、文本、图像、视频等。因为我的研究方向主要是图像识别,所以很少用有“记忆性”的深度网络。怀着对循环神经网络的兴趣,在看懂了有关它的理论后,我又看了Github上提供的tensorflow实现,觉得收获很大,故在这里把我的理解记录下来,也希望对大家能有所帮助。本文将主要介绍RNN相关的理论,并引出LSTM网络结构(关于对tensorf
2016-11-27 17:35:29
20327
2
原创 theano编程错误及解决方法
最近在做科研过程中,用到了theano符号计算框架,我在原有程序的基础上做了改动,但程序一直报错,而theano程序又比较难调试,甚是纠结,在反复测试了好久后才弄明白,故在这里把它们记录下来,以免自己以后可能陷入同一个“坑”。(1)错误提示“UnboundLocalError: local variable ‘e0’ referenced before assignment”; 错误样
2016-11-23 09:48:42
1936
原创 从GoogLeNet架构到deep dream模型
虽然深度神经网络在计算机视觉方面的效果非常显著,但至今还没有非常严格的理论支撑。最开始学习CNN的时候,采用的都是手写体识别的例子,对其最直观的解释即随着层数增加,所学到的特征越来越抽象(大致按照“点-> 线->角->整体轮廓”的顺序)。同样地,谷歌技术团队在训练他们的GoogLeNet网络时,为了对网络所学到的特征有更好的理解,他们在特征可视化方面做了很多努力,同时也发现了一些美轮美奂的图画(如下
2016-11-22 22:02:15
4080
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人