
图像︱相关技术跟踪与商业变现
文章平均质量分 97
悟乙己
心如花木,皆向阳而生!
展开
-
CRU+MXnet︱CRU-Net - Collective Residual Networks
paper:https://arxiv.org/pdf/1703.02180.pdf github:https://github.com/cypw/CRU-Net .1、Abstract剩余单位广泛用于缓解困难建立深层神经网络优化。然而,性能增益不wellcompensate模型尺寸的增加,说明低效率这些剩余单位参数。在这项工作中,我们首先重温剩余单位剩余的功能在变化,表明这些residualf原创 2017-03-29 10:13:13 · 2050 阅读 · 0 评论 -
Recorder︱图像语义分割(FCN、CRF、MRF)、论文延伸(Pixel Objectness、)
图像语义分割的意思就是机器自动分割并识别出图像中的内容,我的理解是抠图… 之前在Faster R-CNN中借用了RPN(region proposal network)选择候选框,但是仅仅是候选框,那么我想提取候选框里面的内容,就是图像语义分割了。 简单的理解就是,图像的“分词技术”。参考文献: 1、知乎,困兽,关于图像语义分割的总结和感悟 2、微信公众号,沈MM的小喇叭,十分钟看原创 2017-02-05 17:57:34 · 13454 阅读 · 0 评论 -
Recorder+人脸识别︱国内人脸识别技术趋势与识别难点、技术实践
一、人脸识别技术基本认识1、文献综述与基本认识本节来源于:人脸检测与深度学习 关于人脸检测算法的文献 总结: 商用算法总结: 列举出共十七项商用算法,百度IDL提出DenseBox第三版(加粗蓝色)是性能最优算法。表中有十项是基于深度学习方法的人脸检测算法(加底纹),这些算法普遍比传统算法提高了十几个百分点,在误检数限制为10的情况下(基本没有误检),准确率仍能达到75...原创 2017-03-19 18:21:17 · 11529 阅读 · 8 评论 -
DeepFashion︱衣物时尚元素关键点定位+时尚元素对齐技术
香港中文大学最近的研究成果:Fashion Landmark Detection in the Wild github地址:https://github.com/liuziwei7/fashion-landmarks 这项工作提出了时尚关键点检测或时尚对齐(通过三层级联网络),预测关键点位置上的时尚物品,如领口的角落,裙摆,袖口,同时实现了时尚衣物检索功能。.一、时...原创 2017-03-19 11:09:18 · 17214 阅读 · 0 评论 -
创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service)
技术与技法日进千里,快速迭代过程中,真正能够留下的是应用场景的重构与对新商业范式的思考。CVaaS 计算机视觉即服务的理念介绍 观点来源于:极视角科技联合创始人 罗韵CVaaS 就是 Computer Vision as a Service, 我们把 CV 的部分标准化成为了一种服务,而每一个行业可以在这里找到自己行业需要的和图像处理、视频处理、计算机视觉相关的算法服务,然后他们可以整合这原创 2017-05-13 15:03:20 · 11454 阅读 · 2 评论 -
ChainerCV︱堪比Opencv--深度学习工具库(Faster R-CNN、SSD 和 SegNet)
Preferred Networks 通过其研究博客发布了深度学习计算机视觉实用库 ChainerCV,它基于 Chainer,能够简化计算机视觉的训练和应用过程,并含有用于计算机视觉研究的必备工具集。 ChainerCV 提供了目标检测和语义分割模型(Faster R-CNN、SSD 和 SegNet)的实现。 ChainerCV 具有大量的已训练权重,可在运行时自动从网络上下载原创 2017-09-03 21:30:49 · 5292 阅读 · 9 评论 -
Object Detection︱RCNN、faster-RCNN框架的浅读与延伸内容笔记
一、RCNN,fast-RCNN、faster-RCNN进化史本节由CDA深度学习课堂,唐宇迪老师教课,非常感谢唐老师课程中的论文解读,很有帮助。 .1、Selective search 如何寻找有效的候选框,最开始的就是这个方法。 寻找方法就是一开始把一幅图像,分割成无数个候选框构造而成的(convert regions to boxes) 然后根据一些色彩特征、把候选框进行融合,框数量变原创 2017-01-22 21:19:38 · 9582 阅读 · 2 评论 -
Recorder︱一些图像识别初创公司产品及API搜集ing...
一些公司的产品路线可以很好地给我们启示,欢迎看客补充。 可参考:从人脸识别到机器翻译:52个有用的机器学习和预测API一、微软认知服务API1、年龄、性别检测2、物体分类、识别3、识别名人全新的名人识别模块可以识别20万来自全球各地涉及商界、政界、体育界以及娱乐界的名人。4、读取图片中的文字光学字符识别(OCR)可检测图片中的文字信息,并将提取出来的文字信息转化成为机器可读的字符串。通过分析原创 2017-02-04 17:05:49 · 26305 阅读 · 0 评论 -
Recorder︱深度学习小数据集表现、优化(Active Learning)、标注集网络获取
一、深度学习在小数据集的表现深度学习在小数据集情况下获得好效果,可以从两个角度去解决:1、降低偏差,图像平移等操作2、降低方差,dropout、随机梯度下降先来看看深度学习在小数据集上表现的具体观点,来源于《撕起来了!谁说数据少就不能用深度学习?这锅俺不背!》 原文:https://simplystatistics.org/2017/05/31/deeplearning-vs-leekass原创 2017-07-08 12:11:08 · 29210 阅读 · 0 评论 -
NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing...
~~因为不太会使用opencv、matlab工具,所以在找一些比较简单的工具。 . .一、NLP标注工具来源:《构想:中文文本标注工具(附开源文本标注工具列表)》Chinese-Annotator 来源:https://github.com/crownpku/Chinese-Annotator能不能构建一个中文文本的标注工具,可以达到以下两个特点:标注过程背后原创 2017-02-07 12:12:01 · 80553 阅读 · 4 评论 -
supervessel-免费云镜像︱GPU加速的Caffe深度学习开发环境
开发环境介绍在SuperVessel云上,我们为大家免费提供当前火热的caffe深度学习开发环境。SuperVessel的Caffe有如下优点:1) 免去了繁琐的Caffe环境的安装配置,即申请即使用。2) 集成了SuperVessel先进的GPU虚拟化技术,POWER8,GPU与cuDNN库三重加速的Caffe,极大的节约您的模型训练时间。3) 环境集成了一些优秀的Caffe开源模型,如图片识别转载 2016-12-30 11:18:43 · 2870 阅读 · 0 评论 -
碎片︱R语言与深度学习
笔者:受alphago影响,想看看深度学习,但是其在R语言中的应用包可谓少之又少,更多的是在matlab和python中或者是调用。整理一下目前我看到的R语言的材料:一、R结合H2O1、H2O简介一个开源的可扩展的库,支持Java, Python, Scala, and R(官网链接: http://www.h2o.ai/verticals/algos/deep-lea转载 2016-03-11 11:39:26 · 6171 阅读 · 0 评论 -
win10系统搭建虚拟机:VMware Workstation Player 12环境+Ubuntu Kylin 16.04 LTS系统
笔者小白一枚,其实连虚拟机是个啥都不知道...实属惭愧,介于此所以今天倒腾了一下花了一上午就已经搭建好一个VMware Workstation Player 12免费版的,很哈皮,于是赶紧分享一下。问题1:win10自带的虚拟机去哪儿了? 笔者自用win10系统,就在苦恼win10好像听说过有自带的虚拟机hyper-v,我的笔记本里面怎么没有呢?那么win10系统的虚拟机跑哪儿了呢?原创 2016-11-19 15:52:20 · 10849 阅读 · 0 评论 -
caffe︱Pascal VOC 2012 Multilabel Classification Model
看到Model Zoo里面有这么一个项目:Pascal VOC 2012 Multilabel Classification Model This model has been used for the paper “Analyzing Classifiers: Fisher Vectors and Deep Neural Networks” (http://www.cv-found原创 2017-03-03 16:04:41 · 3029 阅读 · 3 评论 -
caffe+GAN︱PPGN生成模型5则官方案例(caffe版)
一、效果与架构PPGN 整合了对抗训练、cnn特征匹配、降噪自编码、Langevin采样;在NIPS2016得到了Ian Goodfellow的介绍.PPGN生成的图像同类差异化大,可根据指定生成不同类别的图像、多类化,生成的图像清楚分辨率高。PPGN可使用imagenet1000类分类网络生成特定类别的图像。效果: 架构图: 详细解读:zdx3578(微信公众号)二、案例所需环境:caffe/转载 2017-01-11 10:47:05 · 6015 阅读 · 2 评论 -
无监督学习︱GAN 在 NLP 中遇到瓶颈+稀疏编码自学习+对偶学习
深度学习训练一个模型需要很多的人工标注的数据。例如在图象识别里面,经常我们可能需要上百万的人工标注的数据,在语音识别里面,我们可能需要成千上万小时的人工标注的数据,机器翻译更是需要数千万的双语句对做训练。 看看标注数据的代价有多高。比如说对机器翻译而言,现在如果我们请人工来翻译,一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词,如果我们需要标注一千万个双语句对,也就是转载 2017-01-18 10:35:38 · 9948 阅读 · 0 评论 -
空间深度学习——ConvLSTM原理及其TensorFlow实现
转载于深度学习每日摘要,ConvLSTM原理及其TensorFlow实现 本文参考文献 Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting今天介绍一种很有名的网络结构——ConvLSTM,其不仅具有LSTM的时序建模能力,而且还能像CNN一样刻画局部特征,可以说是时空特转载 2017-05-13 15:28:00 · 45099 阅读 · 13 评论 -
NLP+VS=>Image Caption︱自动生成图像标题技术论文+相关项目
读聪明人的笔记,是不是也能变聪明呢?Image Caption是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。 Image Caption问题可以定义为二元组(I,S)的形式, 其中I表示图,S为目标单词序列,其中S={S1,S2,…},其中St为来自于数据集提取的单词。训练的目标是使最大似然p(S|I)取得最大值,即使生成的语句和目标语句更加匹配,也原创 2017-01-22 18:40:11 · 15035 阅读 · 0 评论 -
计算机视觉︱图像取证技术
来源于公众号 智能感知与计算研究中心:“谁动了我的图片?” – 图像取证技术 它是一种有效的检测篡改的手段。不同于数字水印这种主动的版权保护措施,图像取证不需要往原图像里添加额外信息,不会对原图造成影响。由于它是一种被动的检测技术,因此其应用范围更加广泛。 之所以叫“取证”二字,是因为检测图像篡改就像是侦探破案一般,需要从各种蛛丝马迹上搜集有用的证据。正如作案的凶犯绝不会在案发现场留张纸条转载 2017-05-07 21:34:26 · 10433 阅读 · 3 评论 -
R+OCR︱借助tesseract包实现图片文本提取功能
2016年11月,Jeroen Ooms在CRAN发布了tesseract包,实现了R语言对简单图片的文本提取、分析功能。 利用开源OCR引擎进行图片处理,目前可以识别超过100种语言,R语言可以借助tesseract调用OCR引擎进行相应操作。 从图像中提取文本时,需要提前安装训练数据(地址:https://github.com/tesseract-ocr/tessdata),系统默认转载 2017-01-15 10:39:08 · 10493 阅读 · 0 评论 -
GAN︱生成模型学习笔记(运行机制、NLP结合难点、应用案例、相关Paper)
我对GAN“生成对抗网络”(Generative Adversarial Networks)的看法: 前几天在公开课听了新加坡国立大学【机器学习与视觉实验室】负责人冯佳时博士在【硬创公开课】的GAN分享。GAN现在对于无监督图像标注来说是个神器,不过在NLP领域用的还不是那么广泛。 笔者看来,深度学习之前都没有对数组分布进行细致考察,譬如之前我对NLP词向量就产生过很多疑虑,为啥这么长条原创 2017-01-08 14:02:59 · 25172 阅读 · 2 评论 -
深度学习菜鸟的信仰地︱Supervessel超能云服务器、深度学习环境全配置
并非广告~实在是太良心了,所以费时间给他们点赞一下~ SuperVessel云平台是IBM中国研究院和中国系统与技术中心基于POWER架构和OpenStack技术共同构建的, 支持开发者远程开发的免费科研云平台。除支持虚拟机和容器服务外还提供:大数据Hadoop,Spark开发环境、Python科学计算开发环境(可替代Matlab)、Java Eclipse/Bluefish运行环原创 2017-01-05 15:22:09 · 7789 阅读 · 0 评论 -
关键点定位︱四款人体姿势关键点估计论文笔记
一、三款模型几款模型目前来看的精度:CPM < DeeperCut < CMU OpenPose < AlphaPose 模型 大体框架 多人估计的应对措施 CPM CPM是一个cascaded网络,多个stage反复去定位、修正响应图 center map,为一个高斯响应,因为cpm处理的是单人pose的问题,如果图片中有多人,那么...原创 2018-03-26 22:23:15 · 32306 阅读 · 4 评论