行业应用
计算机视觉的行业应用,已成熟产业化的主要有如下六个领域:
(1). 安防监控领域,包括人脸识别、行为识别、运动跟踪、人群分析等等,利用卡口精准位置布控视频监测,实现了监控区域内异常的自动识别,例如动态视频中的人脸与黑名单库实时比对检测,多视点视频协同分析运行轨迹,视频数据结构化后对关键目标的检索等等;
(2). 互联网娱乐场景,包括拍照优化、视频优化、实时人像美颜、AR特效、自定义背景等等,丰富了直播、短视频等互联网娱乐应用;
(3). 金融身份认证场景,包括各种刷脸的金融应用,如远程开户、支付取款等等;
(4). 无人商场与广告营销,包括线下零售、商品识别、广告AR赋能等等;
(5). 工业机器的视觉系统,包括物品分拣、缺陷检验等等,通常是自动图像分析与光学成像等其他方法技术相结合;
(6). 无人机无人车控制,包括视觉导航、行人分析、障碍物检测等等,通常作为一种传感器和激光雷达、毫米波雷达、红外探头与惯性测量单元融合生成供自主决策的信息;
(7 )医疗影像分析,计算机视觉也有很广阔的发展前景。例如从医学图像数据中(超声图像、X射线图像、CT图像)提取信息可对肿瘤、动脉硬化等进行检测或对器官尺寸、血流等测量,从而进行自动诊断。另一方面在军事化用途上,现代军事概念中有“战场感知技术”的概念,即通过包含图像传感器的各类传感器,利用计算机视觉中自主分析、3D重建技术提供一套数据丰富的战斗实景来支撑战略决策。下图是艾瑞咨询关于计算机视觉产业不同层次的应用领域与厂商列表。
从技术角度应用方向:
(1). 图像分类 image classification
(2). 视频分类 video classification
(3). 目标物定位 object localization/detection
(4). 图像内目标物分割 object segmentation
(5). 视频内目标物分割 video segmentation
(6). 目标追踪 visual tracking
(7). 行为识别 action/activity recognition
(8). 行为定位 temporal action/activity localization
(9). 姿态估计 pose estimation
对数学和专业理论要求
(1). 微积分(BP的链式求导,级数的泰勒展开);
(2). 概率论与数理统计(常见离散分布和连续分布,参数估计方法);
(3). 线性代数(矩阵运算,方程组求解);
(4). 随机过程(马尔可夫随机过程、HMM、马尔可夫随机场);
(5). 矩阵论(矩阵求导,SVD分解);
(6). 信息论(交叉熵);
(7). 最优化理论(最小二乘、线性规划、非线性规划、凸优化);
(8). 概率图(贝叶斯有向图、马尔可夫无向图);
(9). 机器学习(十大算法);
(10). 深度学习(AE\VAE\RBM\DBN\CNN\RNN\GAN);
对工具和开源软件要求
(1). Caffe/tensorflow/pytorch(计算机视觉的深度学习算法实现);
(2). OpenCV(计算机视觉的传统算法实现,图像预处理,机器学习算法实现);
(3). Ffmpeg(视频编解码);
(4). Python工具集(包含scikit-learn/scipy/numpy/pandas/matplotlib等,机器学习算法实现、图像预处理、数据可视化等);
(5). Matlab(部分计算机视觉的深度学习算法实现,图像预处理、光流计算);
(6). cuda-convnet、cuDNN、cuBLAS(矩阵运算、卷积运算的GPU加速);