二、OpenVINO简述与构建流程
1 人工智能与视觉应用
1. 计算机视觉与图像处理
-
图像: 在计算机中,每张图像是由像素构成的阵列,表示为像素值。通常在灰度图中,像素仅单个通道,每个像素值的区间为0 ~ 255,其中255表示白色,0表示黑色。而在彩色RGB图像中,每个像素由R、G、B三个通道组成,每个通道中的像素值区间均为0 ~ 255。
-
视频: 如果说图像是多个像素构成的阵列,那么视频则是由一系列连续图像组成的序列,当图像切换速度足够快时,就形成了平滑连续的视觉效果。如在电影视频中,每秒24帧指的是视频每秒放映的画面数,一幅画面就是一帧,连续的24帧构成了视频一秒内的输出内容。至于为什么看24帧的电影毫无违和感,而60帧以下的游戏却会感觉到明显卡顿,这里就涉及到动态模糊,现实光影在记录时会因为动态模糊存在“多余”的丰富图像信息,而游戏3D实时渲染却不会存在这些动态模糊带来的“多余”信息,其间的差异就造成了观看时的卡顿感。至于动态模糊的概念,这里暂且不做过多赘述。
-
图像处理
-
模糊:平滑处理每个像素及其周围的8个像素值,选取其平均值作为该点的像素值,即可获得更加模糊的图像。
-
锐化:扩大像素点与周围像素点的差异,将会得到更锐利的图像。继续进行锐化,图像将仅保留像素值的显著差异,只能看到图像中物体的边缘,可用于检测图像的角、边缘、线等
-
边缘:在RGB图像中,边缘常常存在于像素值剧烈变化处。因此常常针对这一特征进行物体边缘检测。可以检测图像中的边缘、线、角作为图像特征,由此查找真实图像
-
2. 视频压缩技术与加速处理
-
视频压缩技术: 假设在未经压缩的情况下,1080P 25帧视频的一帧由1920×1080个像素点组成,每个像素点有RGB三个通道,大小约3 bytes。此时一帧图像约为6.2 MB,每秒需要155 MB存储空间,那么一分钟视频约为9.3 GB。为了压缩这些数据,达到通过较少比特去呈现大量数据,同时不丢失太多信息的目的。就需要利用视频压缩,即冗余技术。
-
冗余:
-
空间冗余:在一系列图像内,天空区域所有像素都是相同颜色,此时无需存储每张图像中天空区域的全部像素,仅需存储该区域所有像素的平均值,在显示时应用到天空区域内每个像素上即可。
-