Huggingface 计算机视觉社区教程 Unit1-01-Image 机翻

最新推荐文章于 2025-12-06 10:54:30 发布

翻译最新推荐文章于 2025-12-06 10:54:30 发布 · 68 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://huggingface.co/learn/computer-vision-course/unit1/image_and_imaging/image

文章标签：

#计算机视觉 #人工智能

Huggingface社区计算机视觉教程专栏收录该内容

6 篇文章

订阅专栏

图像

在计算机视觉课程中，我们向您解释什么是图像，这听起来可能有点奇怪。想必您来到这里，首先是想了解更多关于处理图像和视频格式的知识。这似乎是件小事，但您将会大吃一惊！当涉及到图像时，其内容远不止肉眼所见（双关语）。

图像的定义

图像是物体、场景、人物甚至概念的视觉表现。它们可以是照片、绘画、素描、示意图、扫描图等等！更令人惊讶的是，图像也是一个函数。更准确地说，图像是一个 $n$ 维函数。我们首先将其视为二维，即 $n = 2$ 。我们将其称为 $F (X, Y)$ ，其中 $X$ 和 $Y$ 是空间坐标。不要被这个花哨的名称所迷惑。空间坐标只是我们用来描述物理空间中物体位置的系统，最常见的是二维笛卡尔坐标系。函数 $F$ 在坐标对 $x_i, y_i)$ 处的幅度是该点的强度或灰度级。强度是您对明暗的感知。通常，当我们有坐标对 $x_i, y_i)$ 时，我们称它们为像素（picture elements，图像元素）。

图像是离散的，而其生成过程是连续的。图像的生成过程将在下一章讨论。现在，重要的是 $F$ 在特定坐标处的值具有物理意义。函数 $F (X, Y)$ 由两个分量表征：来自光源的照明量和场景中物体反射的照明量。强度图像的强度也受到限制，因为函数通常是非负的，且其值是有限的。

这并非创建图像的唯一方法。有时，图像是在人工智能的帮助下或没有人工智能的帮助下由计算机创建的。我们有一章专门讨论由人工智能辅助创建的图像。我们在这里介绍的大部分术语仍然适用。

另一种不同类型的图像是体数据图像或三维图像。三维图像的维度等于三。因此，我们有一个 $F (X, Y, Z)$ 函数。我们的大部分推理仍然适用，唯一的区别是三元组 $x_i, y_i, z_i)$ 被称为体素（voxel，volume element，体积元素）。这些图像可以以三维方式获取；也就是说，图像是以在三维空间中重建的方式获取的。这类图像的例子包括医疗扫描、磁共振和某些类型的显微镜。也可以从二维图像重建三维图像。重建是一项具有挑战性的任务，它也有专门的一章来讨论。

现在我们已经讨论了空间，我们可以谈谈颜色。好消息是您可能也听说过图像通道。您可能不理解它们的含义，但别担心！图像通道就是构成图像的不同颜色分量。对于 $F (X, Y)$ ，我们对每个颜色分量都有一个 $F$ 。每种颜色都有自己的强度级别。对于捕捉红色的通道，高强度意味着颜色非常红，低强度意味着几乎没有红色。

如果您只看一个颜色的 $F (x, y)$ ，它的范围通常是从 0 到 255，其中 0 表示无强度，255 表示最大强度。在不同的颜色系统中，这些值的组合方式可能不同。因此，在解释这些值时，了解您的数据来源非常重要。

还有一种特殊类型的图像，其中坐标 $F(x_i, y_i)$ 不描述强度值，而是标记一个像素。产生这种图像的最简单操作示例是分离前景和背景。所有前景部分都获得标签 1，所有背景部分都获得标签 0。这些图像通常被称为带标签的图像。当只有两个标签时，就像我们的例子一样，我们称它们为二值图像或掩码。

您可能听说过 4D 甚至 5D 图像。这个术语主要被生物医学领域的人和显微学家使用。同样，别担心！这个命名来自那些在时间上、使用不同通道或不同成像模态（即照片和 X 射线）对体积数据进行成像的人。其理念是每个新的信息来源都成为一个额外的维度。因此，一个 5D 图像是一个在时间上成像（4D）并使用不同通道（5D）的体积图像（3D）。

那么，图像在计算机中是如何表示的呢？最常见的是矩阵。将图像想象成一个二维数值数组是很容易的。这是一个优势，因为计算机处理数组非常出色。将矩阵视为图像有助于理解卷积神经网络和图像预处理中的一些过程。稍后我们将看到更多细节。

另外，图像可以表示为图，其中每个节点是一个坐标，边是相邻的坐标。花点时间思考一下。这也意味着用于图的算法和模型也可以用于图像！反之亦然——您可以将图转换为图像，并像分析图片一样进行分析。

到目前为止，我们提出了一个相当灵活的图像定义。这个定义可以适应获取视觉数据的不同方式，但它们都突出了同一个关键方面：图像是包含大量空间信息的数据点。主要区别在于空间分辨率（二维或三维）、颜色系统（RGB 或其他）以及它们是否附加了时间分量。

图像与其他数据类型的对比

图像与视频的区别

如果您一直在关注，您可能已经理解了视频是附带时间分量的图像的视觉表现。对于二维图像获取，您可以添加一个时间维度，使 $F (X, Y, T)$ 成为您的成像函数。

图像本身就可以天然地包含一个隐藏的时间分量。毕竟，它们是在特定的时间点拍摄的，并且不同的图像也可能在时间上相互关联。然而，图像和视频在采样这种时间信息的方式上有所不同。图像是单个时间点的静态表示，而视频是按一定速率播放的一系列图像，从而产生运动的错觉。这个速率就是我们所说的每秒帧数。

这一点非常基础，所以本课程有一章专门讲解视频。在那里，我们将讨论处理这个新增维度所需的调整。

图像与表格数据的区别

在表格数据中，维度通常由描述一个数据点的特征（列）数量来定义。在视觉数据中，维度通常指描述数据的维数。对于二维图像，我们通常将数字 $x_i$ 和 $y_i$ 称为图像尺寸。

另一个方面是描述视觉数据的特征的生成。它们是通过传统的预处理或通过深度学习方法学习而生成的。我们称之为特征提取。它涉及不同的算法，将在特征提取章节中更详细地讨论。这与表格数据的特征工程形成对比，后者是在现有特征的基础上构建新特征。

表格数据通常需要处理缺失值、对分类变量进行编码和重新缩放数值特征。图像数据的类似过程是图像大小调整和强度值归一化。我们称这些过程为预处理，并将在“计算机视觉预处理”一章中更详细地讨论。

主要区别

下表总结了不同数据类型的主要方面。

特点	图像	视频	音频	表格数据
1. 类型	单一时间瞬间	随时间变化的图像序列	随时间变化的声波序列	以行和列组织的结构化数据
2. 数据表示	通常为二维像素数组	通常为三维帧数组	通常为一维音频样本数组	通常为二维数组，其中特征为列，单个数据样本为行（即电子表格、数据库表）
3. 文件类型	JPEG、PNG、RAW 等	MP4、AVI、MOV 等	WAV、MP3、FLAC 等	CSV、Excel (.xlsx, .xls)、数据库格式等
4. 数据增强	翻转、旋转、裁剪	时间抖动、速度变化、遮挡	添加背景噪声、混响、频谱处理	ROSE、SMOTE、ADASYN
5. 特征提取	边缘、纹理、颜色	边缘、纹理、颜色、光流、轨迹	语谱图、梅尔频率倒谱系数（MFCC）、色度特征	统计分析、特征工程、数据聚合
6. 学习模型	CNN	RNN、3D CNN	CNN、RNN	线性回归、决策树、随机森林、梯度提升
7. 机器学习任务	图像分类、分割、目标检测	视频动作识别、时序建模、追踪	语音识别、说话人识别、音乐流派分类	回归、分类、聚类
8. 计算成本	较低	较高	中等到高	通常低于其他类型
9. 应用	用于安全访问控制的人脸识别	手语实时翻译	语音助手、语音转文本、音乐流派分类	预测建模、欺诈检测、天气预报