文章目录
一. 什么是计算机视觉
计算机视觉研究的内容
计算机视觉是一个研究如何让计算机理解图像与视频中高层次语义信息的科学。更进一步的说,它就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。
图像形成的过程
图像是光与物理世界中的物体作用之后的平面投影,整个图像的形成过程主要包含两个相对独立的步骤:1. 场景中物体之间通过物理规律的交互,2. 光与场景中物体的相互作用。
前向模型的逆
图像的形成的过程叫做前向模型,而人类视觉和计算机视觉都是在求解这个前向模型的逆,即从一个二维的图像观测中去还原物理世界中物体的位置、运动、相互作用和对应的场景的语义信息。
常见的视觉识别任务有光学字符识别、语义分割、物体分类、物体检测等,
其具体细分领域描述如下:
名称 | 描述 |
---|---|
光学字符识别 | 允许电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮模式确定其形状,再用字符识别方法将形状转换成计算机文字。 |
语义分割 | 将图像中的每个像素分配到特定类别标签,与物体检测不同,不仅识别物体,还要精确标记出每个物体边界,即对每个像素进行分类。 |
物体分类 | 识别图片中的主体物体,并将其归类到预定义的类别中。 |
物体检测 | 在图像或视频帧中识别和定位一个或多个物体。 |
光流估计 | 分析和计算图像序列中像素点随时间的运动模式,通过比较连续视频帧或图像序列中像素强度变化,估计场景中各像素点的运动向量(光流),在视频分析、目标跟踪、动作识别等领域应用广泛。 |
运动捕捉 | 使用传感器、摄像机、惯性测量装置等设备捕捉运动物体的位移、速度和加速度等信息,将数据转换成数字信号,用于实时跟踪并重建人体或物体动作,生成精确的三维运动数据。 |
摄影旅行 | 分析大量从不同角度拍摄的同一景点的图片,来重建该景点的三维模型。 |
三维场景重建 | 涉及从二维图像或视频序列中恢复出三维场景的信息,可获取从任意视角观测且具有色彩纹理的三维模型,是计算机视觉领域重要研究方向。 |
自动驾驶 | 也称无人驾驶,指车辆能在无人类驾驶员直接操作下,依靠搭载的传感器、摄像头、雷达、激光雷达等设备以及先进算法和人工智能技术,实现自主导航和驾驶功能。 |
图片风格变换 | 允许将一张图片的艺术风格应用到另一张图片上,同时保持原图结构完整,在艺术创作、图像增强、虚拟现实等领域应用广泛。 |
二. 图像的形成原理
小孔成像原理
小孔相机模型:光线沿直线传播。物体反射的光线,通过针孔,在成像面形成倒立的影像。针孔与成像面的距离,称为焦距。针孔接近成像面,可拍摄广角照片。
小孔的直径越小,成像越清晰。小孔直径越大,成像亮度越大。
对于三维空间任意一点(X,y,z),它投影到相机成像平面的坐标都可以通过相似三角形进行计算:
x = − f X Z x = - f \frac { X } { Z } x=−fZX
y = − f Y Z y = - f \frac { Y } { Z } y=−fZY
其中,f是小孔到成像平面的距离,即焦距;( x , y )是该三维空间点对应的二维成像的平面点坐标。
三. 数字图像
光敏元件上像素点到电信号
数码相机的成像过程首先涉及将光敏元件(如CCD或CMOS)上的每个像素点通过透镜聚焦的光线转化为电信号,这些信号随后被处理以生成图像。