Huggingface 计算机视觉社区教程 Unit1-03-真实世界中的图像 机翻

现实生活中的成像

你有没有试过给一窝小猫拍照?如果没有,那你可错过了一场美丽的、混乱的场景。小猫是一种可爱的生物,它们的移动方式非常古怪。它们会做出最可爱的事情,但这种可爱只会持续半秒,紧接着就会出现一个更可爱、更棒的瞬间。在你不知不觉中,你已经弯着腰,努力把那只小猫框进画面,同时还要调整焦距和拍摄角度,而另一只小猫正爬到你的腿上。你沉浸在它们的毛茸茸中,以至于根本没时间检查照片。当你坐下来查看照片时,它们全都模糊了。只有一两张照片值得保存在手机里。你坐在那里想:我以为小猫更上镜呢。

这窝小猫的故事很简单,但它反映了为什么在现实生活中很难对事物进行成像。样本(包含小猫的场景)的变化速度通常比相机调整的速度快。一台不试图追踪小猫的固定位置相机也面临着困难,因为我们的目标(小猫)在空间中的移动方式会改变相机的焦点。根据物体与相机的距离,改变镜头以捕捉白色区域也可能会导致失真(请看下面可爱的例子)。感兴趣的事件(小猫那个可爱的姿势)淹没在数百张其他相当无趣的照片中。我们以小猫为例,虽然它有点傻气,但这些困难也发生在各种其他场景中。成像很难。然而,互联网上却充斥着可爱的猫咪图片。
请添加图片描述


高分辨率和高配置并不总是最佳选择

我们很容易认为,如果我们有一台更好的相机,一台响应更迅速、分辨率更高的相机,那么所有问题都会迎刃而解。我们就能拍到我们想要的可爱照片。此外,我们还将利用本课程的知识,不仅捕捉所有可爱的小猫,我们还想在保姆摄像机上建立一个模型,检查小猫是否和妈妈待在一起,以便我们知道它们都安全无虞。听起来很完美,对吧?

在我们冲出去购买市场上最新最炫的相机,以为我们会得到更好的数据之前,请三思。我们以为训练模型会变得超级简单,模型会超级准确,在小猫追踪市场上拥有超凡脱俗的性能。这一段就是为了引导您走向一个更富有成效的方向,并可能为您节省大量时间和金钱。更高的分辨率并不能解决所有问题。首先,用于处理图像的典型神经网络模型是卷积神经网络(CNN)。CNN 期望图像具有给定的大小。大图像需要大模型。训练需要更长的时间。您的电脑很可能 RAM 也有限。更大的图像尺寸意味着每次迭代可用于训练的图像数量更少,因为 RAM 是有限的。

显而易见的解决方案是说,我们只需购买一台拥有更多 GPU 和更多 RAM 的电脑。这也意味着除了购买相机,您还需要为训练小猫模型所使用的任何服务支付更多费用。更笼统地说,这并不反映现实世界中的情况。有时,计算机模型的实际应用是GPU 和内存贫乏的应用。等等,这不就是我们最初的情况吗?我们如何将模型安装到保姆摄像机的硬件中呢?

我们有一个想法:我们将尝试一个更小的模型,使其具有与大模型相同的行为!顺便说一下,这是您实际可以做的事情。但即使这样做,收集尽可能高质量的图像也可能不是一个好主意,仅仅是因为它的采集和传输通常需要更长的时间。50GB 的小猫图片仍然是 50GB 的数据,无论其内容多么可爱。另一个论点是,计算机资源通常要么是付费的,要么是共享的。在第一种情况下,这可能不是对金钱资源的良好利用。至于第二种情况,占用整个服务器很少是交朋友的好方法。

甚至还有一个更好的理由不去追求尽可能高的分辨率。更高的分辨率可能比低分辨率有更多的噪声。分辨率不仅增强了您捕捉感兴趣信号的能力,也增强了您捕捉噪声的能力。因此,在低分辨率图像上学习某些东西可能更容易。从计算和金钱角度来看,较低的分辨率可能有助于实现更快的训练、更高的准确性和更便宜的模型。这里的关键在于,应在考虑到图像的噪声特性以及训练和部署模型所需的基础设施的前提下,追求尽可能高的分辨率。最后,我们为什么要一开始就使用高质量的相机?如果我们想在保姆摄像机上建立模型,我们不妨直接从保姆摄像机获取图片。


对一切进行成像

成像技术最令人印象深刻的一点是,我们对它们有多么执着。我们从不知道何时该停止。这不仅适用于小猫的照片,也适用于我们周围的世界。我们天生好奇。正如第一章所见,我们依靠视觉来做决定。当这是一个困难的决定时,我们希望有一个清晰的视野(并非双关语)。

毫不奇怪,作为一个物种,我们开发了超越我们眼睛能捕捉的范围的新的观看方式。我们想看到大自然最初不允许我们看到的东西。我几乎可以保证,如果有什么东西我们不确定它是什么样子,就会有人试图去对它进行成像。

作为一个物种,人类只能看到光谱的一小部分。我们称之为可见光谱。下图向我们展示了它有多么狭窄:
请添加图片描述

为了看到比大自然赋予我们的更多的东西,我们需要捕捉超出该光谱的传感器。换句话说,我们需要在不同的波长下探测事物。**红外线(IR)**用于夜视设备和一些天文观测。磁共振使用强磁场和无线电波对人体软组织进行成像。我们创造了不依赖于光的观察方式。例如,电子显微镜使用电子以比传统光学显微镜高得多的分辨率放大观察。超声波是另一个很好的例子。超声波成像利用声波创建内部器官和组织的详细实时图像,提供了一种超越标准基于光的成像方法的非侵入式动态视角。

然后,我们将巨大的镜头朝向天空,用它们来想象曾经未见和未知的事物。我们还将它们指向微小的领域,构建 DNA 结构和单个原子的图像。这两种仪器都基于操纵光的想法。我们使用不同类型的镜子或透镜,以我们感兴趣的特定方式弯曲和聚焦光线。

我们对观察事物如此痴迷,以至于科学家甚至改变了某些动物的 DNA 序列,以便用一种特殊的蛋白质(绿色荧光蛋白,GFP)标记感兴趣的蛋白质。顾名思义,当绿色波长的光照亮样本时,GFP 会发出荧光信号。现在,更容易知道感兴趣的蛋白质在哪里表达,因为科学家可以对其进行成像。

在那之后,就是改进这个系统,以获得更多的通道、更长的时间尺度、更好的分辨率。一个很好的例子是显微镜现在如何在一夜之间生成太字节的数据。

以下是一个很好的例子,展示了这种共同努力。在其中,您可以看到一个用荧光蛋白标记的鱼胚胎发育的三维图像投影的延时视频。您在图像上看到的每个彩色点都代表一个单独的细胞。

请添加图片描述

这种成像的多样性是相当惊人的。这些光学工具已经成为我们感知宇宙的眼睛。它们为我们提供了革命性地改变我们对宇宙和生命本身的理解的见解。我们每天都用它来给远在他乡的亲人发送照片。当医生需要仔细观察时,我们会进行 X 光检查。孕妇会进行超声波检查她们的宝宝。我们能够对像黑洞这样巨大的事物和像电子这样微小的事物进行成像,这听起来可能有点神奇,甚至异想天开。嗯,事实确实如此。


关于成像的视角

正如我们之前所见,我们已经习惯了不同的成像方式。现在这只是一种日常事务,但它花费了大量时间和努力。看起来我们并没有放慢脚步。我们不断地寻找新的观察方式。新的成像方式。随着我们不断建造新的仪器以更好地观察,新的故事和谜团将被揭示。在这一部分,我们将举例说明过去已经被揭示的一些谜团。

第51号照片(Photo 51)

请添加图片描述
DNA 的第一张照片也被称为第 51 号照片。他们使用一种基于纤维衍射的技术,对由 DNA 纤维组成的晶体凝胶进行成像。这张照片由雷蒙德·戈斯林于 1952 年 5 月在罗莎琳德·富兰克林指导下拍摄,当时他是一名研究生。它是沃森和克里克在 1953 年构建双螺旋模型的关键部分。这张照片有很多争议。其中一部分来自罗莎琳德·富兰克林早期工作的未被认可的贡献,以及照片在何种情况下被分享给沃森和克里克。尽管如此,它极大地促进了我们对 DNA 结构的理解以及此后开发的技术。

暗淡蓝点(The Pale Blue Dot)

在这里插入图片描述

暗淡蓝点是 1990 年由一艘太空探测器拍摄的一张照片。地球的大小是如此之小,以至于小于一个像素。这张照片因展示了地球相对于浩瀚的太空是多么微小和短暂而广为人知。它启发了卡尔·萨根写了《暗淡蓝点》这本书。这张照片由旅行者 1 号上的 1500 毫米高分辨率窄角相机拍摄。这艘太空探测器还拍摄了“太阳系全家福”。

黑洞

在这里插入图片描述

另一个具有天文重要性的事件发生在 2019 年 4 月,当时研究人员捕获了第一张黑洞图像!这是位于处女座 M87 星系中心的一个超大质量黑洞的图像,距离地球约 5500 万光年。这张非凡的图像是事件视界望远镜的产物,这是一个由同步射电天文台组成的全球网络,它们共同工作,创造了一个与地球一样大的虚拟望远镜。收集到的数据量巨大,超过 1 PB,并且由于其大小,必须进行物理传输进行处理。他们需要结合来自近红外、X 射线、毫米波长和射电观测的数据。这项成就是事件视界望远镜合作组织多年努力的结晶。
请添加图片描述

在 M87* 取得成功之后,天文学家们致力于对我们银河系中心的超大质量黑洞人马座 A* 进行成像。对人马座 A 成像带来了独特的挑战,因为它尺寸更小,并且其周围环境的变化速度比 M87 这样的大型黑洞周围环境快得多。这种快速移动使得很难捕捉到一张能准确代表人马座 A* 周围结构的稳定图像。这就像我们的小猫例子!尽管存在这些挑战,但所获得的图像对于在极端引力条件下检验爱因斯坦的广义相对论**至关重要。虽然这些观测至关重要,但它们是用于检验广义相对论预测的更广泛方法的一部分。


图像,图像,图像

这一部分有点出人意料。它不涉及新的成像方式,而是涉及读取和存档图像的新方式。您在上面看到的 GIF 动图是存储在活体细菌 DNA 中的一张图像。这是由一群科学家在 2017 年首次完成的,作为概念验证,证明活体生物是存档数据的绝佳方式。为此,他们首先将图像值翻译成核苷酸代码(著名的 ATCG)。然后,他们使用一个名为 CRISPR 的系统将此序列放入 DNA 中,CRISPR 能够编辑 DNA。接着,他们对 DNA 进行了重新测序,并重建了您在下面看到的 GIF 动图。
请添加图片描述

这已经相当令人印象深刻了,但请系好安全带。我们甚至可以看到这个过程的实际运作!嗯,不是这个精确的例子,而是另一组科学家使用高速原子力显微镜来展示它是如何工作的。这种显微镜使用一个机械连接到扫描仪的锋利尖端。尖端与表面的相互作用会生成样本的拓扑描述。所有这些都在纳米尺度上进行。下面的视频展示了 DNA 编辑器 CRISPR-cas9 系统在咀嚼 DNA 时所做的第一步。太棒了!

请添加图片描述

还有更多。你有没有想过科学家是如何对 DNA 进行成像的?信不信由你,这个过程也涉及成像。要了解 DNA 序列,科学家需要先复制它。这些副本是通过用不同的荧光染料标记核苷酸(我们所说的 ATCG)来创建的。每个核苷酸都一次匹配一个序列。当它们被添加时,一台相机捕捉一张图像。发出的荧光颜色表明添加了哪个核苷酸。通过追踪单个位置,我们可以重建一个 DNA 分子的序列。这种测序技术不仅仅是重建图像。它被用来理解不同的生物过程,并且在临床环境中有很多应用。医生可以从这些序列中做各种各样的事情。例如,可以对肿瘤样本进行测序,并用于将其分类为侵袭性或非侵袭性。这会生成高维数据。在这种高维环境中得出任何结论都很困难,因此他们通常会将其降维为二维图像。这些二维图像可以像任何图像一样进行处理。这意味着您可以使用 CNN 对其进行分类。令人难以置信,对吧?


图像特征取决于采集方式

无论图像类型如何,所有图像都具有相同的基本特征。它们代表空间分量,通常用矩阵表示。然而,认识到图像并非生而平等至关重要。图像的独特特征来自拍摄对象图像采集方法。换句话说,我们不期望黑洞和 DNA 看起来相似。但我们也不期望同一个人的照片和 X 光片看起来一样。

理解图像特征是构建计算机视觉模型的一个很好的第一步。这不仅会影响计算机视觉模型的性能,而且还会决定哪些模型更适合您的问题。值得注意的是,并非每种图像类型都需要开发新的神经网络架构。有时,您可以通过微调操纵最后一层来适应预先存在的模型以完成不同的任务。有时不需要这种操作;相反,可以采用预处理来使您的图像更类似于网络所训练的输入。现在不必太担心这些细节,它们将在本课程的后半部分章节中讨论。这里提到它们是为了帮助您理解图像采集的上下文为何如此重要。

对于在不同波长下但在同一坐标系中采集的图像,可以简单地将每次采集视为一个不同的颜色通道。例如,在由 X 射线和近红外线共同采集的图像中,您可以将它们视为不同的颜色通道。这样,每张图像都有自己的灰度。

虽然这看起来很简单,但某些技术,如雷达和超声波,使用一种独特的坐标系,称为极坐标网格。这个网格起源于发射信号的中心。与笛卡尔坐标系不同,像素大小不一致。随着离中心距离的增加,此系统中的坐标也随之增加。实际上,这意味着像素代表的区域随着离中心的距离增加而变大。有两种不同的方法。第一种是将坐标系更改为像素大小相同的坐标系。这会导致很多信息丢失,可能没有太大意义,并可能导致次优的存储系统。另一种方法是保持原样,但将与中心的距离作为模型的另一个输入

这并不是坐标系发挥作用的唯一场景。另一个是卫星成像。当在同一坐标下捕捉到多个波长时,您可以像之前看到的那样将它们视为不同的颜色通道。然而,当数据处于不同的坐标系下时,情况会更复杂。例如,将卫星图像和地球图像组合在一起以完成给定任务。在这种情况下,需要将坐标相互重新映射

最后,图像采集带有其自身的一系列偏见。我们在这里可以宽泛地将偏见定义为数据集的不良特征,因为它要么是噪声,要么是改变了模型行为。偏见的来源有很多,但在图像采集中一个相关的偏见是测量偏见。当用于训练模型的数据集与模型实际看到的数据集差异太大时,就会发生测量偏见,就像我们之前的高分辨率小猫图像和保姆摄像机的例子。还可能有其他来源的测量偏见,例如测量来自标注者本身(即不同群体和不同人对图像的标注方式不同),或者来自图像的上下文(例如,在试图对狗和猫进行分类时,如果所有猫的图片都在沙发上,模型可能会学习区分沙发和非沙发,而不是猫和狗)。

所有这些都说明,识别和解决来自不同仪器的图像特征是构建计算机视觉模型的一个很好的第一步。用于解决我们在此情况下发现的问题的预处理技术和策略可以用来减轻其对模型的影响。**“计算机视觉任务的预处理”**一章将更深入地探讨用于增强模型性能的特定预处理方法。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值