
计算机视觉
文章平均质量分 81
orangezs
这个作者很懒,什么都没留下…
展开
-
[目标检测]-NMS系列-cvpr2019-Adaptive NMS 原理详解
1.资源Adaptive NMS: Refining Pedestrian Detection in a Crowd2.简介Adaptive NMS的研究者认为这在物体之间有严重遮挡时可能带来不好的结果。我们期望当物体分布稀疏时,NMS大可选用小阈值以剔除更多冗余框;而在物体分布密集时,NMS选用大阈值,以获得更高的召回。既然如此,该文提出了密度预测模块,来学习一个框的密度。就是想要去自适应的调整NMS时的阈值,使得待检测目标不密集时,用较小的NMS阈值杀掉其他的bbox,待检测目标密集呢(出原创 2021-05-31 19:59:54 · 3018 阅读 · 6 评论 -
[计算机视觉]-MSE、MEA、L1、L2、smooth L1解释及优缺点
MAE损失函数MAE=∑i=1n∣yi−yip1∣nM A E=\frac{\sum_{i=1}^{n} \mid y_{i}-y_{i}^{p_{1}} \mid}{n}MAE=n∑i=1n∣yi−yip1∣以分类问题举例。对于上式中,yiy_{i}yi代表真实值,yipy_{i}^{p}yip代表预测值。下面是一个MAE函数的图,其中真实目标值为100,预测值在-10,000至10,000之间。预测值(X轴)= 100时,MSE损失(Y轴)达到其最小值。损失范围为0至∞。优点原创 2021-05-31 14:26:15 · 7074 阅读 · 1 评论 -
[计算机视觉]-从ShuffleNet V2来看,为什么有些FLOPs小的模型在实际推理过程中所花费的时间更长/速度更慢?
惯例资源论文地址1.简介相对于传统卷积方式,目前如分组卷积,空洞卷积,深度可分离卷积等,这些新型的卷积方式可以有效的降低模型的FLOPs,然而在实际设备上,由于各种各样的优化计算操作,导致计算量并不能准确地衡量模型的速度,换言之,相同的FLOPs会有不同的推理速度。具体来说,如在GPU运算的一些操作,底层都是调用cuda算子,而这些算子的操作方式,都是由开发人员优化后的,可能并没有针对具体的如深度可分离卷积进行优化;或在arm架构的cpu上,本质也是调用cpu的算子,可能并无相关优化。2. 四原创 2021-05-24 15:22:46 · 3942 阅读 · 0 评论 -
[模型压缩/加速]-tensorrt使用简介,tensorrt为什么这么快?为什么可以实现对模型的加速?
资源惯例先放资源1.官方的tensorrt文档2.tensorrt官方主页3.tensorrt支持的操作1.为什么需要模型加速模型加速越来越成为深度学习工程中的刚需了,最近的CVPR和ICLR会议中,模型的压缩和剪枝是受到的关注越来越多。毕竟所有的算法想要产生经济效益一定要考虑落地的情况,可能我们看很多论文提出的方法或者说github公布的代码大多关注精度及python环境下的FPS,但在实际的工程用在考虑精度的同时,速度也是十分重要的,且更多的公司越来越青睐python 训练,C++重写推原创 2021-05-14 20:57:22 · 3605 阅读 · 0 评论 -
[笔记]--tensorrt及神经网络常用的.wts权重格式解析
介绍.wts是一种可解释性文本对于一个例子 lenet5.wts 来说,这里我们展示他的一部分。10conv1.weight 150 be40ee1b bd20bab8 bdc4bc53 .......conv1.bias 6 bd327058 .......conv2.weight 2400 3c6f2220 3c693090 ......conv2.bias 16 bd183967 bcb1ac8a .......fc1.weight 48000 3c162c20 bd25196a ..原创 2021-05-11 19:15:30 · 2024 阅读 · 0 评论 -
[计算机视觉]-经典网络inception v1、v2、v3、v4核心工作详解及总结
资源inception v1Going deeper with convolutions:https://arxiv.org/abs/1409.4842BN算法Batch Normalization:https://arxiv.org/pdf/1502.03167.pdfinception v2/v3Rethinking the Inception Architecture for Computer Vision:https://arxiv.org/pdf/1512.00567.pdfince原创 2021-04-21 13:28:43 · 4811 阅读 · 0 评论 -
[工具]-python利用opencv将视频中多个感兴趣区域分别截取下来,实现一段视频中分别提取不同感兴趣ROI的子视频
简介算是之前一个版本的升级版本,具体原理参考https://blog.youkuaiyun.com/ai_faker/article/details/115495422?spm=1001.2014.3001.5501功能介绍输入:一段视频输出:该段视频中我们感兴趣的几个区域例子演示输出保存为使用说明代码运行后会弹出一个窗口界面,我们在这个窗口界面进行子视频输出区域选取1.点击屏幕,第一个点代表着想要输出子区域1的左上角,第二个点代表想要输出子区域1的右下角,两个点确定一个输出子区域2.原创 2021-04-10 15:58:11 · 1732 阅读 · 3 评论 -
[计算机视觉]-EfficientNet论文思路理解及核心工作分析
1.资源论文链接:https://arxiv.org/abs/1905.11946代码链接:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet第三方实现的PyTorch代码:https://github.com/lukemelas/EfficientNet-PyTorch最近V2也公布了,做完这一期做V22.简介卷积神经网络的性能公认会受到网络规模、输入图像分辨率的影响即,我们固定一个网络的基本原创 2021-04-08 20:03:29 · 432 阅读 · 0 评论 -
[小工具]-python利用opencv将视频中感兴趣的区域提取保存并完成提取区域内变化波动显示
简介通常我们得到了一段视频,可能只需要其中部分区域的内容,其他的可以认为是我们不关注的内容。比如我们做分类识别,需要某种样本,利用了摄像头进行拍摄,但是我们的需要的内容只在视频中的某个固定区域内出现了,我们只想要保存该部分区域内的视频,然后利用脚本完成按帧截取,从而完成数据集的收集。工具应用场景需求:需要的样本目标只会出现在一个固定的视野内。设置:手动指定原视频中我们感兴趣的区域输出:将原视频中我们指定的感兴趣区域截取下来存储为avi视频格式用途:后续可以配合对视频截取图像的脚本来完成样本原创 2021-04-08 10:32:42 · 2960 阅读 · 3 评论 -
[深度学习]-从零开始手把手教你利用pytorch训练VGG16网络实现自定义数据集上的图像分类(含代码及详细注释)
前言本文主要分为两部分:第一部分大致的介绍了VGG原理第二部分详细的介绍了如何用pytorch实现VGG模型训练自己的数据集实现图像分类想只看代码部分的同学,可以直接看第二部分内容一:VGG原理简介1.VGG主要工作2014年的论文,主要工作是证明了增加网络的深度能够在一定程度上影响网络最终的性能。VGG有两种结构,VGG16和VGG19,两者并没有本质上的区别,只是网络深度不一样。论文地址:VGG论文2.VGG主要改进前一代的经典网络为AlexNet,VGG相对于AlexNet最原创 2021-04-01 15:27:21 · 15880 阅读 · 21 评论 -
[计算机视觉]-CVPR2021全新Backbone-ReXNet论文解析与涨点思路理解及pytorch实现
1.资源论文:https://arxiv.org/pdf/2007.00992.pdf代码:https://github.com/clovaai/rexnet2.核心贡献个人认为就是做了一堆实验+数学推导,实质性的东西就是提出了三个设计原则2.1 探讨了Representational Bottleneck问题Representational Bottleneck即特征描述的瓶颈就是中间某层对特征在空间维度进行较大比例的压缩(比如使用pooling时或者是降维),导致很多特征丢失。2.2 基原创 2021-03-23 19:18:38 · 1224 阅读 · 2 评论