Huggingface 计算机视觉社区教程 Unit1-00-Vision 机翻

视觉

我们大多数人都知道阳光是地球上生命得以延续的原因,但您有没有想过这如何塑造了我们的生活?首先,地球上几乎所有生物都有某种方式来感知光线(甚至包括一些细菌和单细胞生物)。人类也具备这种能力,但我们有一套更为复杂的与光线互动系统。我们通过晶状体捕捉光线,晶状体随后在我们的眼睛中产生电信号,这个信号通过类似电缆的结构(我们的神经系统)传递,并在我们的大脑中被重构,告诉我们周围的环境是什么样的。

这个过程就是我们所说的视觉。这是我们进化的一个基本步骤。视觉是如此重要,以至于科学家们假设中枢神经系统(最终促成了我们拥有发达的大脑)的发展是在视觉出现之后才开始的。这很有道理——如果没有传感器捕捉如此庞大的信息,为什么还要浪费资源去制造开发它所需的“机器”呢?


视觉对人类的重要性

在这里插入图片描述

如果你曾自发地踢过一个球,你的大脑会在一瞬间无意识地执行无数任务。它正确地识别出球,追踪其运动,预测其轨迹,计算球到达你位置的速度,预测你脚的轨迹,调整击球的力量和角度,并从你的大脑向你的脚发送信号以改变其位置。将图像作为输入(在本例中,是视网膜捕捉到的信号)并将其转化为信息(踢球)是计算机视觉的核心。我们将在下一章中更详细地讨论这一点。

令人震惊的是,我们不需要任何正规教育就能完成这些。我们日常做的大多数决定都不需要上课学习。没有“心算101”可以估算出踢球所需的力量。我们是在成长过程中通过反复试验学到的。有些人可能根本就没有学过。这与我们构建程序的方式形成了鲜明对比,程序大多是基于规则的。

让我们尝试复制我们大脑所做的第一个任务:检测有一个球的存在。一种方法是定义什么是球,然后在图像中穷尽式地搜索一个球。然而,定义什么是球实际上很困难。球可以小到网球,也可以大到Zorb球,所以大小对我们帮助不大。我们可以尝试描述它的形状,但有些球,比如橄榄球,并不总是完美的球形。同样,并非所有球形的东西都是球,否则肥皂泡、糖果甚至是我们的星球都将被视为球。
在这里插入图片描述


纯编程与机器学习方法

我们可以给出一个暂定的定义,说:“球是一种用于运动或玩耍的球形物体”。这似乎是正确的,但我们又遇到了另一个问题。你怎么知道他们是在做运动?你用什么来检测他们在做运动?如果是一只狗和球呢?那它不算是球吗?如果球是单独的,没有人,也没有运动呢?那么像羽毛球这种东西呢?它也是我们用来玩耍的,不是完美的球形,但我们通常不认为它是球。所有这些细微的差别加起来,使得一个人类无意识地解决的简单问题变得难以分解成简单的规则。

我们自己都明白这些。这种隐含的理解来自于我们多年来构建的关于球是什么样子的心理图像。虽然一个羽毛球不符合我们对球的心理图像,但我们很难解释为什么。这不仅仅是因为它的大小,也不是因为它的羽毛。有类似大小的球,即使我们用羽毛覆盖一个球,我们仍然会把它认作是球。
在这里插入图片描述

所有这些都表明,我们区分物体的能力超越了严格的定义;我们经常从相关概念中进行归纳,并依赖于上下文线索。当一个熟悉的概念以不同的形式出现时,我们仍然可以毫无障碍地识别它——这种能力对我们来说是自然的。然而,在由僵化、硬编码规则控制的系统中,这种能力并非与生俱来的。

这强调了开发更强大的系统的必要性,即那些能够适应各种情景的系统。这也是为什么这个领域与人工智能如此密切相关的原因。视觉是上下文丰富的,我们需要能够像我们一样利用这些线索的模型。

让我们以印第安纳·琼斯从一块巨石前逃跑的例子为例。那里有一个球,也有人在跑,但几乎没有人会称之为一项运动!我们知道这一点是因为我们依赖一些上下文线索。印第安纳·琼斯正在逃跑的球看起来很重,而且是他的两倍大。他的脸上流露出痛苦。这个空间非常狭窄,看起来像一个洞穴,这对于运动来说是不寻常的。此外,我们能认出他的穿着,那通常不是运动员的打扮。


创造能够模拟人类视觉和认知的人工智能系统的动机

尽管它们有相似的输入和输出,但人类视觉计算机视觉是不同的过程。有时它们会重叠。然而,计算机视觉主要关注的是开发和理解视觉系统中的算法、模型以及它们的决策。它并不局限于创建复制人类视觉的系统。它还可以用于解决对人类来说过于繁琐、耗时、昂贵或容易出错的问题。我们举的球的例子仍然是一个简单的例子,您可能不觉得它有什么用。然而,一个能够追踪球的模型可以用于体育赛事,以在比赛期间提供更快、更公平的判决。随着图像转文本和文本转语音模型的普及,我们还可以通过自动追踪球及其运动员并进行实时描述,让有视力障碍的人们更能无障碍地观看现场体育赛事。因此,即使是简单的用例也能对社会产生积极影响。我们将在第三章中更详细地讨论这一点。

我们正处于人工智能复兴的浪潮之巅。这是一个我们可以自由地训练、部署和分享我们模型的时代。这是一个我们的模型可以检测出我们自己无法在图像中看到的事物的时代。

计算机视觉的界限也已扩展。我们现在可以从文本生成图像,也可以从图像生成描述性文本。而且我们用智能手机就能做到。计算机视觉的应用无处不在。无限的可能性正等待我们去探索,而这正是我们这门课程将要做的。

欢迎来到计算机视觉领域。请坐好。享受这段旅程吧。它将是精彩绝伦的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值