计算机视觉的深度学习实战
更多精彩内容请关注微信公众号:听潮庭。
一、概述
-
计算机视觉概述
-
高度复合学科:工程、计算机科学、数学、心理学、生物学
-
图像处理、机器人、神经科学、认知科学、机器学习、计算机图形学、信息获取、算法、硬件系统;
-
两个主要研究维度:
-
语义感知(semantic):
- 分类 Classification :物体、属性、场景等
- 检测 Detection:物体、行人、人脸等
- 识别 Recognition:物体:车牌,文本;人:人脸、指纹、虹膜、步态、行为等;
- 分割 Segmentation
- 检索 Retrieval:以文搜图、以图搜图、图文联搜
- 语言 language:图片描述,图片问答等;
-
几何属性(Geometry):VR
- 3D建模
- 双目视觉
- 增强现实
-
-
-
简介
-
开源库与应用环境介绍
- Anaconda Python 3.6
- OpenCV 3.4+
- TensorFlow 1.9+
- DNN模型实践
- VGG、ResNet、
- Faster R-CNN、YOLO
- DeepLab、U-NET
- Show-and-Tell
- GAN
-
参考书
- Python基础教程 第二版
- OpenCV3 计算机视觉:Python语言实现
- TensorFlow实战
- 深度学习 goodfellow的花书
- 深度学习轻松学 核心算法与视觉实践
-
环境搭建
-
Windows
-
OpenCV 3.4
-
Python 3.6+
-
TensorFlow 1.9+
-
Keras等
-
开源库介绍:
-
OpenCV
- 函数库:计算机视觉、机器学习
- 优化算法2500+
- 编程语言:C、C++、Java、Python、Matlab
- 并行计算:CUDA、OpeenCL
-
Caffe:
- 函数库:深度学习
- 发布方:BVLC
- 编程语言:C++、Python
- 并行计算:CUDA
- 特色:
- 在配置中定义模型并优化,不需要硬编码
- 代码的可扩展性强
- 运行速度非常快
-
Torch(PyTorch)
- 函数库:深度学习
- 发布方:Facebook
- 编程语言:Lua(Python)
- 并行计算:CUDA
- 特色:
- 使用动态计算图,提供了更快速地方法
- 提供了运行在GPU/CPU之上、基础的张量计算操作库;
- 支持共享内存的多进程并发(multiprocessing)库
-
TensorFlow
- 函数库:深度学习
- 发布方:Geogle
- 编程语言:Python
- 并行计算:CUDA
- 特色:
- 多级、多GPU分布式
- 适用于超大模型,超大数据集
- Tensorboard将训练过程可视化
- TensorFlow最简教程
- 使用图graph来表示计算任务
- 在被称之为会话session的上下文context中执行图
- 使用张量tensor表示数据
- 通过变量variable表示数据
- 使用feed和fetch可以为任意的操作赋值或者从其中获取数据
- 占位符
-
Keras
-
函数库:深度学习
-
编程语言:Python
特色:
- 兼容Theano和TensorFlow的深度学习高级包
- 用户友好,高度模块化,易扩展性
-
-
-
-