
深度学习
文章平均质量分 93
亚古兽要进化
我很喜欢亚古兽
展开
-
卷积层和归一化层融合以及ONNX的使用
之前就已经提到过,在神经网络种涉及到归一化的操作中就要特别小心。一方面是训练和推理阶段要有明确的标识来进行区分。否则,就会导致训练和推理的结果相差很大。另一方面就是归一化的方法很多,大致可分为:...原创 2021-06-11 18:01:18 · 5701 阅读 · 0 评论 -
资源整合ing
一些数据集的整理或者技术博客专栏等链接整合:关于人脸的数据集和GAN算法。1. 涉及到的数据集主要是人脸数据集,但是并没有相应的标注,即不适合人脸检测。2. GAN相关论文的翻译以及github工程链接等3. 相对应的大神在优快云上的博客地址:https://blog.youkuaiyun.com/a312863063http://www.gwylab.com/index.htmlhttp://www.seeprettyface.com/...原创 2020-05-19 11:15:35 · 383 阅读 · 0 评论 -
linux下x265和matlab的MatConvNet安装
x265安装 首先在网络上下载x265的项目,下载下来的就是源码,需要编译成可执行文件。下载地址有很多,可以选择github和做别人打包好的压缩文件,这里提供后者下载地址,当前是x265_3.2.1版本 解压后进入/hx265_3.2.1/build/linux,有两个文件,执行 ./make-Makefiles.bash有可能报错:./make-Make...原创 2020-01-18 16:23:24 · 796 阅读 · 1 评论 -
无参考图像质量评估方法:BRISQUE、RankIQA、DIQA详解
常用的图像质量评估(IQA)分为无参考和有参考两种类型。常见的有参考图像质量评估方法有PSNR,SSIM以及VMAF。其中vmaf是针对视频来讲的,在它的评价方法里面添加了一些时域信息,如果应用于单张图片,需要做一些处理,如去除时域信息。有参考意味着图像质量是以参考图为基准。基于参考图像都是高清图像的假设,这些评价方法已经广泛应用于图像压缩以及图像传输、拼接之类的处理后图像的质量,假如这...原创 2019-12-01 16:46:09 · 27151 阅读 · 8 评论 -
siamese(孪生) 网络以及迁移学习的应用
孪生,顾名思义,就是长相一样的双胞胎。对于深度学习模型来说就是一种相似性度量网络。表面上画出的网络分为两路,而这两路网络一模一样。因此,同一个输入数据分别输入到两个网络,最后的输出也一样。那么相似的输入,输出也应当很相识。基于这种特性,孪生网络特别适合带有准确标签的样本在整个样本中的比率很小,但整个的数据集的体量又很大的情况。特别是对于现在的深度学习,都是数据驱动型的。如果每个类别的样本太...原创 2019-09-26 21:05:27 · 5237 阅读 · 10 评论 -
OpenVINO的部署和使用
现在几乎每家硬件或互联网公司都推出了自家的机器学习框架,小米的mace、谷歌的TensorFlow、Facebook的Torch等等。今天要介绍的是Inter公司出品的OpenVINO。OpenVINO主要分为Model Optimize和Inference两个部分。第一个就是把不同机器学习平台下训练出来的模型转换成OpenVINO可以是别的xml和bin两个组成的模型。然后执行Inf...原创 2019-06-22 16:22:03 · 7600 阅读 · 1 评论 -
iOS(swift): Core ML的使用
神经网络模型在移动端可以利用CPU加速,但是,如果算法同事那边为了更好的效果在尝试不同的模型,相应的在部署iOS移动端这块就需要不断的修改网络模型。Core ML的出现使部署移动端的任务量可以缩减到最少两行代码。 苹果官方给出了如何利用Core ML的demo,并且给出了两个例子。一个是根绝输入相关数据预测房价,另外一个是输入图片给出分类结果(结合了Vision框架)。打开Xco...原创 2019-05-29 20:52:16 · 4903 阅读 · 2 评论 -
基于Youtube-8M的视频场景分类
简介 首先对于视频和图片分类的区别,我的理解就是视频分类多了一些时间信息。另一方面对于视频分类包括的场景和动作这两类视频分类中,感觉时域信息的重要性也不同。动作分类更加注重时域信息这一点。总之,为了在普通的多张空域图像信息上提取时域信息,通常处理方法有:双流卷积(普通图像的空域信息加上几张图片的光流信息)、循环神经网络RCNN(包括主流的LSTM等)、3D卷积等。无论何...原创 2018-12-07 17:05:08 · 8615 阅读 · 3 评论 -
人脸检测-MTCNN
简介: 人脸检测不同于别的目标检测算法,其实它就是一个二分类问题。如果仅仅从工程角度来讲,用官方或者其他人训练的结果即可。因此在这里只介绍其推理过程,而不再介绍训练过程,训练步骤和数据集的制作可以参考该文章。根据工程目标可以调整一下内部参数来提高其中的检测速度或者最小检测范围。在人脸检测算法中,MTCNN是已知的开源人脸检测算法中相对优秀的算法。该算法主要由3个stage对人脸进行从...原创 2018-11-01 00:17:38 · 832 阅读 · 0 评论 -
目标检测中tensorflow常用API以及备选框筛选代码分析
目标检测算法中,因为产生的备选框特别多,需要删减。而删减的方法是NMS(非极大抑制算法)。网上很多算法是自己编写功能代码。但是这不是tensorflow中自带的功能,所以在使用tensorflow恢复模型的时候,sess并不能hold住他们。因此别人需要用的时候,还需要额外的配置这些代码,如果采用TensorFlow自带的一些功能,那么调用pb文件的时候就可以直接实现一步到位的结果。...原创 2018-09-28 14:59:18 · 1062 阅读 · 0 评论 -
TensorFlow:将ckpt文件固化成pb文件
本文是将yolo3目标检测框架训练出来的ckpt文件固化成pb文件,主要利用了GitHub上的该项目。 为什么要最终生成pb文件呢?简单来说就是直接通过tf.saver保存行程的ckpt文件其变量数据和图是分开的。我们知道TensorFlow是先画图,然后通过placeholde往图里面喂数据。这种解耦形式存在的方法对以后的迁移学习以及对程序进行微小的改动提供了极大的便利性。但是...原创 2018-09-26 00:34:12 · 10557 阅读 · 15 评论 -
YOLO/V1、V2、V3目标检测系列介绍
YOLO /V1 算法首先将图像缩放为448*448尺寸,随后把输入图像划分成S*S的格子(grider cell,论文中S=7),每个格子grider cell 都需对每个类别的概率进行预测,然后对每个格子都预测B(论文中为2)个bounding boxes,每个bounding box都包含5个预测值:x,y(bounding,box的中心点,girder cell的偏移值),w,...原创 2018-09-04 10:16:25 · 3300 阅读 · 7 评论 -
Faster R-CNN end2end的训练过程
首先给出某大神画出的训练网络图链接打不开点击此处,本次不对源代码进行分析,仅仅以流程图先大体上对整个的Faster-RCNN有个宏观上的了解,具体的实施细节需要查看从代码或其他理论博客。 首先,看到左上角对矩形框的颜色进行了解释,特别要注意代表loss的粉色。因为在一般的神经网络或者算法中,loss函数一般只有一个,但是该网络有四个(从源代码中可以看到,这四个loss函数进行相加又得出一...原创 2018-08-08 10:40:28 · 1676 阅读 · 1 评论 -
Tensoflow版本Faster R-CNN的demo运行调试(TFFRCNN版)
是在参考这篇文章的基础以及作者的相关博客来进行的,在这里只是补充一些自己在整个过程中遇到的问题,建议详细阅读远原文章,作者讲解的非常详细。首先在克隆工程和编译Cython模块时遇到了一些问题。在进入到lib文件下使用make命令进行时遇到了一些错误提示,大概意思就是没有安装Cython.Distutils和TensorFlow等等,然而自己明明安装了的。最终想到自己的Mac上已经安装了Pyth...原创 2018-07-30 16:51:51 · 1176 阅读 · 0 评论 -
TFrecord的制作以及tf.train.shuffle_batch、Dataset详解
安装Tensorflow-GPU: 安装gpu版本的tensorflow还是有一定的坑的。主要是不同的tensorflow版本需要对应不同的cuda和cudnn,他们三个之间的联系比较强烈。在次安装时仍然不免需要查看一些流程,现在整理一下当时引用的博客:https://blog.51cto.com/moerjinrong/2368993https://www.cnblogs.co...原创 2018-04-10 15:35:44 · 5293 阅读 · 3 评论