
深度学习原理
文章平均质量分 89
深度学习知识,包括CV、NLP等领域以及DL框架。
TracelessLe
BetterLife,BetterWorld.
展开
-
Non-maximum Suppression (NMS) 流程回顾
前言NMS全称Non-maximum Suppression,非极大值抑制。通常用于检测任务中的bbox去冗余。流程分析procedure NMS(dets, thresh): # dets->bboxes, thresh->filter iou thresh keep = [] # a list to put final picked bbox indexes x1, y1, x2, y2, scores = dets[:, idx] # parse bboxes原创 2022-04-06 16:22:07 · 2109 阅读 · 0 评论 -
无显示设备的Ubuntu上安装和测试OpenPose
前言OpenPose是由CMU推出,用于实时检测图片中的人体、手、人脸和脚的关键点,一共135个关键点。支持多人检测。对于需要用到人体姿态的研究帮助很大。OpenPose安装和测试本文主要参考OpenPose官方安装文档。对于Cmake-GUI的部分使用直接改写CMakeLists.txt完成。拉取源码和子模块源码git clone https://github.com/CMU-Perceptual-Computing-Lab/openpose.git拉取子模块源码(caffe和pybind原创 2022-03-28 15:50:56 · 3506 阅读 · 0 评论 -
论文笔记——Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data
基本信息标题:Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data简称:Real-ESRGAN时间:17 Aug 2021, International Conference on Computer Vision Workshops (ICCVW) 2021作者:Xintao Wang, Liangbin Xie, Chao Dong, Ying Shan;Applied Research原创 2022-01-28 15:53:21 · 6334 阅读 · 0 评论 -
论文笔记——ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks
基本信息标题:ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks简称:ESRGAN时间:2018年初版,1 Sep 2018, ECCV2018 PIRM Workshop作者:Xintao Wang, Ke Yu, Shixiang Wu, Jinjin Gu, Yihao Liu, Chao Dong, Chen Change Loy, Yu Qiao, Xiaoou Tang; CUHK-SenseTime Jo原创 2022-01-28 15:24:55 · 6005 阅读 · 0 评论 -
gaussian2kp与kp2gaussian使用记录
前言gaussian2kp与kp2gaussian是在求目标坐标点时,需要保证求解过程可导而提出的方法。理论上是结合softmax函数 ,达到argmax的目的,使得过程可导。使用import torchdef make_coordinate_grid(spatial_size, type): """ Create a meshgrid [-1,1] x [-1,1] of given spatial_size. """ h, w = spatial_size原创 2021-10-08 14:56:45 · 592 阅读 · 0 评论 -
姿态估计之Yaw Pitch Roll
前言姿态通常是物体自身坐标系相对某个约定的参考坐标系的一个状态,日常生活中描述姿态一般都是相对地面坐标系而言的,因为这更符合人的直观感受。在生活中较为常见的是飞机在空中时的姿态描述,这能辅助描述飞机的状态定位和状态调整。姿态估计姿态简单来说就是物体坐标系到大地坐标系之间的状态。而姿态估计则是采用某种方法估计出某一三维目标物体的方位指向问题。姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。常见的姿态估计问题有人体姿态估计、人脸姿态估计等。欧拉角与姿态角欧拉角是一种最直观的姿态描述原创 2021-07-10 10:06:23 · 4420 阅读 · 0 评论 -
图像生成系列论文研读笔记——CycleGAN
前言CycleGAN 致力于解决图像到图像映射的问题,主要用于风格迁移。可以进行非成对(unpaired)的图像到图像的转换。论文内容基本信息标题:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks时间:2018年11月5日作者:Jun-Yan Zhu,Taesung Park,Phillip Isola,Alexei A. Efros;Berkeley AI Research (BAIR原创 2021-04-28 17:16:10 · 877 阅读 · 0 评论 -
数据预处理中的归一化与反归一化
前言在使用深度学习框架构建训练数据时,通常需要数据归一化(Normalize),以利于网络的训练。而在训练过程可视化中,通常需要反归一化。以PyTorch框架而言,提供了torchvision.transforms.Normalize(mean, std, inplace=False)方法用于归一化。归一化归一化的实质是将数据的分布根据均值和标准差进行调整。#torchvision.transforms.Normalize(mean, std, inplace=False)output[chan原创 2021-04-22 17:36:07 · 5899 阅读 · 0 评论 -
face_alignment库获取人脸图片landmark示例
前言face_alignment是Python环境下一个用于检测人脸关键点(landmark)的常用的库。基于FAN方法实现,具有2D和3D关键点检测的能力。方法示例face-alignment库获取输入图片中的人脸关键点,图片输入格式为RGB通道顺序格式,因此如果用OpenCV读取图片后需要注意转换通道顺序,如果是用skimage.io读取则不用转换通道顺序。2D test on CPUimport cv2import face_alignmentdef cv_draw_landmark原创 2021-04-22 15:09:29 · 5936 阅读 · 10 评论 -
图像分割任务中的评价指标简析
前言在图像分割领域中,我们需要使用特定的指标来评估实验效果。上图源自《Fully Convolutional Networks for Semantic Segmentation》整个评价体系中,被广泛应用的几个评价指标有:PrecisionRecallAccuracyIoUF1-ScoreMean Accuracy / Frequency Weighted Accuracy / Mean IoU / Frequency Weighted IoU等衍生指标在此对上述用到的指标做原创 2021-03-06 18:01:42 · 4014 阅读 · 2 评论 -
浅谈几种Normalization方法
前言本文主要对以下几种Normalization方法进行讨论:Batch Normalization(BN)Instance Normalization(IN)Conditional Instance Normalization(CIN)Adaptive Instance Normalization(AdaIN)SPatially-Adaptive (DE) normalization(SPADE)以下Normalization方法本文不做讨论,请自行搜索相应资料。Local Res原创 2020-06-07 00:00:12 · 5959 阅读 · 0 评论 -
GAN就对了:Generative Adversarial Nets
前言Generative Adversarial Nets,生成对抗网络,也就是大家经常听到的 GAN,由Ian Goodfellow于2014年首先提出,之后迅速风靡学术圈。就连深度学习先驱之一的Yann LeCun也给予了高度评价,认为"GAN及其变种是数十年来机器学习领域最有趣的点子"。有关GAN的研究层出不穷,仿佛没有什么是“GAN”不出来的。发展现状根据GAN的发展情况,梳理相关内容:名称发表时间解决问题中文名称论文链接GAN10 Jun 2014GAN系列的原创 2020-05-31 20:35:36 · 565 阅读 · 0 评论 -
反向传播(BP)算法到底传播了个啥?
反向传播算法 BackPropagation ,简称BP算法。常用于训练多层神经网络,那么它到底传播了个啥?又是怎么传播的呢?我们知道,对于一个机器学习算法,其最终预测出的值与实际值一般会存在差异,那么我们定义这个差异为误差E。算法中有若干参数需要学习,那么怎么学习呢?以什么策略去变化参数,使得预测值更接近真实值呢?这就是采用BP算法的初衷,我们知道预测值是由所有参数与相连的输入运算后得到的,也就是说预测值与真实值之间的误差E其实是与每个参数相关的,可以认为误差是由每个参数造成的,因此我们试图将误差进行原创 2020-05-30 16:42:45 · 2845 阅读 · 2 评论 -
Dilated Convolution膨胀卷积感受野详解
重温Dilated Convolution膨胀卷积,对论文中采用Dilation后的感受野计算产生了迷惑,于是自己重新画图琢磨了一番,原创 2020-05-14 11:34:54 · 3815 阅读 · 3 评论 -
评估指标中IoU/precision/recall/tp/fp/fn/tn的个人理解
在物体检测和图像分割领域的评价体系中,IoU/precision/recall这几个评价指标被广泛应用,读过相应的代码之后会发现由此引出tp/fp/fn/tn的概念。通过查找相关资料,对这几个概念做一个整理。 先说tp/fp/fn/tn这四个最基本的概念,上图: 从这张图就可以很清楚知道这四个的概念,分别为 tp:True Positive fp:False Positive原创 2017-03-03 22:52:23 · 9281 阅读 · 0 评论 -
projective TSDF/TSDF/flipped TSDF三种截断符号距离函数比较的个人理解
先直接上图: 说明:projective TSDF只找在摄像机视线上最靠近的表面点,这样虽然加速了运算,但是有严重的视角依赖性。TSDF选择计算在所有可观测表面上任一点中最近的点的距离,但在沿着遮挡(-dmax)边界的空白空间部分(+dmax),有很强的梯度。flipped TSDF则通过变换使得在表面呈现最强的梯度(可以参考下图中颜色变化)。最近在学习普林斯顿大学的一篇三维场景理解的论文中,原创 2017-03-02 21:10:39 · 11969 阅读 · 0 评论 -
Deep Visual-Semantic Alignments for Generating Image Descriptions从环境配置到得出结果Chapter3
Chapter3.使用自己的图片来跑这个实例 这个过程是最繁琐了,花了我大概三天才调通。在此做个分享。 neuraltalk-master\example_images目录下给出了示例,包括task.txt和vgg_feats.mat。其中taks.txt是需要处理的图片名称的一个合集,vgg_feats.mat是通过CNN后(这里用的是vggnet)生成的图片特征值。原创 2017-01-12 11:14:28 · 1818 阅读 · 4 评论 -
Deep Visual-Semantic Alignments for Generating Image Descriptions从环境配置到得出结果Chapter2
Chapter2.Stanford的图片描述生成实例Deep Visual-Semantic Alignments for Generating Image Descriptions调整及运行原创 2016-12-06 21:47:58 · 2540 阅读 · 24 评论 -
Deep Visual-Semantic Alignments for Generating Image Descriptions从环境配置到得出结果Chapter1
对于斯坦福大学2015年CVPR发表的论文《Deep Visual-Semantic Alignments for Generating Image Descriptions》提供的代码进行调试并应用。Chapter1.环境配置(以Windows10 64位笔记本为例) Caffe + 3rdparty包 + VisualStudio2013 + Matlab R2014a + Python2.7原创 2016-12-06 21:35:13 · 2178 阅读 · 10 评论