- 博客(15)
- 收藏
- 关注
原创 图像中的目标检测概述
距离找工作仅仅只剩几个月的时间,在找工作之前,准备把object detection全部巩固一遍。技术路线:Faster R-CNN , YOLO v3, SSD, RetinaNet, Mask R-CNN, RefineDet.批注:前段时间熟悉了一下Faster RCNN,后面的两天将熟悉YOLO v3,这个算法可以实现多尺度的检测,对小目标有着较好的检测能力,而且最重要的是可以实时...
2019-01-26 10:36:29
1512
原创 阿里天池之江杯零样本图像目标识别Top1%方案分享
比赛结束了一周多了,历时近三个月,也是我第一次做零样本识别。名次是32/3224,虽然不太满意,但学到了很多东西。在这篇博文做一次总结,并将公开我们的代码。零样本识别概念零样本识别不同于传统的分类识别,传统的分类识别所有的label以及每个label对应的图像都可以用来训练,而且训练一个较好的分类器通常需要大量的训练图像。零样本识别的训练集并不包含测试集的label,因此需要识别一个从来没有见...
2018-11-07 23:50:47
6209
14
原创 Action Prediction探索
背景由于项目组中有异常行为检测的项目,该项目需要对异常行为及时的报警,是real-time and online的检测。前期,项目研究了Action Recognition,而Recognition是对trimmed视频进行识别,而且是对发生完的动作进行识别,不适合项目的需求。而之后又探索了anomaly detection,这个是对异常事件的检测,但是异常事件检测采用重构的思想,即对正常行为...
2018-07-24 15:23:09
1633
2
原创 基于tesseract的证件定位和识别
代码已开源 github 地址:https://github.com/KaiJin1995/tesseract_cardRecognition 博客稍后更新
2018-06-26 16:14:45
3479
原创 阿里天池FashionAI服装属性标签识别Top1%方案分享
前言上周六刚刚结束FashionAI2018服装属性标签识别的复赛,比赛竞争十分激烈。比赛总共报名近3000支队伍,经过3个月的比拼,我们队伍最终获得了第11名的成绩。虽然离第十名只有一步之遥,但是我不遗憾,毕竟这是我第一次参加天池比赛,对于这个结果我感觉对得起自己三个月的辛苦。干货下面从以前几点来讲解该比赛及方案FashionAI比赛内容FashionAI比赛方案未来计划...
2018-06-10 23:25:36
12655
10
原创 基于temporal segment networks的行为识别
引言:根据ActionRecognize发展路线,最初是VGG组提出的Two-Stream Network实现,再他们之后,Limin Wang提出了VGGNet完成,加深了网络的深度,并提出防止过拟合的方法。得到了较好的效果。在ECCV2016,Limin Wang 提出了一种新的网络结构,即对双流网络的改进,称之为Temporal Segment Networks。 这篇博客主要讲述两个方面:1
2017-11-13 20:39:54
2197
原创 caffe源码之心得
batchsize理解caffe训练的时候存在batchsize,例如batichsize=32,计算最终的loss是讲32个输入的loss取平均,得到最终的loss,再用该loss进行反向传播。caffe的solver文件中存在iter_size参数,在caffe的Solver.cpp源码中可以轻易得到,iter_size是不断的运行for (int i = 0; i < param_.iter_
2017-11-09 20:59:12
534
原创 使用Motion-Vector实现Real-time人体行为识别
导言:由上一篇博客的方法实现人体行为识别,准确率高,但缺陷在于速度慢,最大的原因在于经典的two-stream的人体行为识别均使用光流图作为temporal net的输入。光流法速度慢,在应用中无法实时。这篇博客引用论文 Real-time Action Recognition with Enhanced Motion Vector CNNs——–Bowen Zhang, Limin Wang,
2017-10-28 22:25:41
7115
2
原创 基于VGG-Net的人体行为识别(Action Recognition)
Abstract:本文对论文’Towards Good Practices for Very Deep Two-Stream ConvNets’的复现。该论文采用了two-stream的卷积方法,该方法的鼻祖是VGG团队,该团队的论文是14年的’Two-Stream Convolutional Networks for Action Recognition in Videos’ ,从此开创了新的一派
2017-10-19 12:03:09
3065
原创 CVPR2017之ActionVLAD(对特征整合方式的改进)
背景 关于视频中的行为识别,通常会出现这种识别错误的情况:即一段视频中包含若干动作,譬如打篮球的视频中包含跑、跳、扔东西等多种行为,如何能正确地识别为投篮?当前行为识别主要有两种CNN结构:(1)第一种:3D spatio-temporal 卷积,这种方法识别准确率有待提升,优势是速度较快。(2)第二种,也就是目前常用的方法:two-stream architectures,将视频分解成图
2017-09-28 11:45:15
4474
原创 CVPR2017行为识别中的关键帧检测网络AdaScan
今天阅读了该论文,获得一些启发,先对其进行记录,以防后面会遗忘。该论文的核心思想是我要在视频中去除一些冗余帧,提升视频行为的判断力,保留有用信息,去除无关信息。论文的网络图如下所示:为何AdaptivePooling可以实现对关键帧的选取呢?原因在于Adaptive Pooling的结构所在。下面将讲述核心结构Adaptive Pooling。经过Deep Network获得的Fe
2017-09-24 23:22:27
5197
1
原创 CVPR2016之A Key Volume Mining Deep Framework for Action Recognition论文阅读(视频关键帧选取)
该论文的主要思想是从视频中选取关键的帧卷(frame volume)用来行为识别。 该文章的意图是通过对视频中关键帧进行选取,减少与视频表达内容不相关的视频帧,实现视频中行为识别准确率的提升。 该文章主要从两个方面进行阐述:1、如何选取关键帧。2、如何检测并框住人体动作行为以便用来识别 下面我讲从两个方面阐述这个问题。如何选取关键帧 关键帧的选取采用了多示例学习的方法(multiple-in
2017-09-17 22:34:01
1887
3
原创 VGG人脸识别训练心得
在使用VGG进行人脸训练过程中,我是用log日志记录了训练过程中的数据。训练过程中的参数对于训练而言,有着较大的影响,参数设置不当,容易出现训练结束,但未收敛到最佳状态
2017-06-01 21:16:59
14518
1
原创 Python双线程使用
最近研究人脸匹配,在人脸匹配过程中,由于摄像头输入的人脸要与数据库中的人脸比较,但由于数据库中的人过多,逐一匹配速度可能会降低,故选用双线程实现匹配加速,本文主要就python如何使用双线程进行记录。
2017-05-20 10:59:56
2463
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人