Huggingface 计算机视觉社区教程 Unit1-01-Image 机翻

图像

在计算机视觉课程中,我们向您解释什么是图像,这听起来可能有点奇怪。想必您来到这里,首先是想了解更多关于处理图像和视频格式的知识。这似乎是件小事,但您将会大吃一惊!当涉及到图像时,其内容远不止肉眼所见(双关语)。

图像的定义

图像是物体、场景、人物甚至概念的视觉表现。它们可以是照片、绘画、素描、示意图、扫描图等等!更令人惊讶的是,图像也是一个函数。更准确地说,图像是一个 nnn 维函数。我们首先将其视为二维,即 n=2n=2n=2。我们将其称为 F(X,Y)F(X,Y)F(X,Y),其中 XXXYYY 是空间坐标。不要被这个花哨的名称所迷惑。空间坐标只是我们用来描述物理空间中物体位置的系统,最常见的是二维笛卡尔坐标系。函数 FFF 在坐标对 (xi,yi)(x_i, y_i)(xi,yi) 处的幅度是该点的强度灰度级。强度是您对明暗的感知。通常,当我们有坐标对 (xi,yi)(x_i, y_i)(xi,yi) 时,我们称它们为像素(picture elements,图像元素)。

图像是离散的,而其生成过程是连续的。图像的生成过程将在下一章讨论。现在,重要的是 FFF 在特定坐标处的值具有物理意义。函数 F(X,Y)F(X,Y)F(X,Y) 由两个分量表征:来自光源的照明量场景中物体反射的照明量。强度图像的强度也受到限制,因为函数通常是非负的,且其值是有限的。

这并非创建图像的唯一方法。有时,图像是在人工智能的帮助下或没有人工智能的帮助下由计算机创建的。我们有一章专门讨论由人工智能辅助创建的图像。我们在这里介绍的大部分术语仍然适用。

另一种不同类型的图像是体数据图像三维图像。三维图像的维度等于三。因此,我们有一个 F(X,Y,Z)F(X,Y,Z)F(X,Y,Z) 函数。我们的大部分推理仍然适用,唯一的区别是三元组 (xi,yi,zi)(x_i, y_i, z_i)(xi,yi,zi) 被称为体素(voxel,volume element,体积元素)。这些图像可以以三维方式获取;也就是说,图像是以在三维空间中重建的方式获取的。这类图像的例子包括医疗扫描、磁共振和某些类型的显微镜。也可以从二维图像重建三维图像。重建是一项具有挑战性的任务,它也有专门的一章来讨论。

现在我们已经讨论了空间,我们可以谈谈颜色。好消息是您可能也听说过图像通道。您可能不理解它们的含义,但别担心!图像通道就是构成图像的不同颜色分量。对于 F(X,Y)F(X,Y)F(X,Y),我们对每个颜色分量都有一个 FFF。每种颜色都有自己的强度级别。对于捕捉红色的通道,高强度意味着颜色非常红,低强度意味着几乎没有红色。

如果您只看一个颜色的 F(x,y)F(x,y)F(x,y),它的范围通常是从 0 到 255,其中 0 表示无强度,255 表示最大强度。在不同的颜色系统中,这些值的组合方式可能不同。因此,在解释这些值时,了解您的数据来源非常重要。

还有一种特殊类型的图像,其中坐标 F(xi,yi)F(x_i, y_i)F(xi,yi) 不描述强度值,而是标记一个像素。产生这种图像的最简单操作示例是分离前景和背景。所有前景部分都获得标签 1,所有背景部分都获得标签 0。这些图像通常被称为带标签的图像。当只有两个标签时,就像我们的例子一样,我们称它们为二值图像掩码

您可能听说过 4D 甚至 5D 图像。这个术语主要被生物医学领域的人和显微学家使用。同样,别担心!这个命名来自那些在时间上、使用不同通道或不同成像模态(即照片和 X 射线)对体积数据进行成像的人。其理念是每个新的信息来源都成为一个额外的维度。因此,一个 5D 图像是一个在时间上成像(4D)并使用不同通道(5D)的体积图像(3D)。

那么,图像在计算机中是如何表示的呢?最常见的是矩阵。将图像想象成一个二维数值数组是很容易的。这是一个优势,因为计算机处理数组非常出色。将矩阵视为图像有助于理解卷积神经网络和图像预处理中的一些过程。稍后我们将看到更多细节。

另外,图像可以表示为,其中每个节点是一个坐标,边是相邻的坐标。花点时间思考一下。这也意味着用于图的算法和模型也可以用于图像!反之亦然——您可以将图转换为图像,并像分析图片一样进行分析。

到目前为止,我们提出了一个相当灵活的图像定义。这个定义可以适应获取视觉数据的不同方式,但它们都突出了同一个关键方面:图像是包含大量空间信息的数据点。主要区别在于空间分辨率(二维或三维)、颜色系统(RGB 或其他)以及它们是否附加了时间分量。


图像与其他数据类型的对比

图像与视频的区别

如果您一直在关注,您可能已经理解了视频是附带时间分量的图像的视觉表现。对于二维图像获取,您可以添加一个时间维度,使 F(X,Y,T)F(X,Y,T)F(X,Y,T) 成为您的成像函数。

图像本身就可以天然地包含一个隐藏的时间分量。毕竟,它们是在特定的时间点拍摄的,并且不同的图像也可能在时间上相互关联。然而,图像和视频在采样这种时间信息的方式上有所不同。图像是单个时间点的静态表示,而视频是按一定速率播放的一系列图像,从而产生运动的错觉。这个速率就是我们所说的每秒帧数

这一点非常基础,所以本课程有一章专门讲解视频。在那里,我们将讨论处理这个新增维度所需的调整。

图像与表格数据的区别

表格数据中,维度通常由描述一个数据点的特征(列)数量来定义。在视觉数据中,维度通常指描述数据的维数。对于二维图像,我们通常将数字 xix_ixiyiy_iyi 称为图像尺寸

另一个方面是描述视觉数据的特征的生成。它们是通过传统的预处理或通过深度学习方法学习而生成的。我们称之为特征提取。它涉及不同的算法,将在特征提取章节中更详细地讨论。这与表格数据的特征工程形成对比,后者是在现有特征的基础上构建新特征。

表格数据通常需要处理缺失值、对分类变量进行编码和重新缩放数值特征。图像数据的类似过程是图像大小调整强度值归一化。我们称这些过程为预处理,并将在“计算机视觉预处理”一章中更详细地讨论。

主要区别

下表总结了不同数据类型的主要方面。

特点图像视频音频表格数据
1. 类型单一时间瞬间随时间变化的图像序列随时间变化的声波序列以行和列组织的结构化数据
2. 数据表示通常为二维像素数组通常为三维帧数组通常为一维音频样本数组通常为二维数组,其中特征为列,单个数据样本为行(即电子表格、数据库表)
3. 文件类型JPEG、PNG、RAW 等MP4、AVI、MOV 等WAV、MP3、FLAC 等CSV、Excel (.xlsx, .xls)、数据库格式等
4. 数据增强翻转、旋转、裁剪时间抖动、速度变化、遮挡添加背景噪声、混响、频谱处理ROSE、SMOTE、ADASYN
5. 特征提取边缘、纹理、颜色边缘、纹理、颜色、光流、轨迹语谱图、梅尔频率倒谱系数(MFCC)、色度特征统计分析、特征工程、数据聚合
6. 学习模型CNNRNN、3D CNNCNN、RNN线性回归、决策树、随机森林、梯度提升
7. 机器学习任务图像分类、分割、目标检测视频动作识别、时序建模、追踪语音识别、说话人识别、音乐流派分类回归、分类、聚类
8. 计算成本较低较高中等到高通常低于其他类型
9. 应用用于安全访问控制的人脸识别手语实时翻译语音助手、语音转文本、音乐流派分类预测建模、欺诈检测、天气预报
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值