《Computer Vision Models,Learning and Inference》

本文分享了作者阅读《Computer Vision Models》一书的心得,着重于计算机视觉中的目标识别、测量值、全局状态、模型、参数和学习推理过程。作者强调模型间的统计关系在解决问题中的核心作用,以及模型的通用性和组织结构的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

观书有感 之《Computer Vision Models,Learning and Inference》

闲来垂钓碧溪上。今晚钓到一本计算机视觉的书,记录一下笔记:

零 前言

  • 计算机视觉是一门工程学科,机器在现实世界中捕获的视觉信息可以激发我们的积极性。因此,我们通过使用计算机视觉解决现实问题来对我们的知识进行分类。例如,大多数视觉教科书都包含目标识别和立体视觉内容。

  • 对于目标识别,目前已提出多种算法解决这一问题(例如子空间模型、boosting模型、语义包模型、星座模型等),然而这些方法没有什么共同点,究竟应该如何看待计算机视觉问题呢:对于一幅图像,我们不仅要观察图像中的内容,同时还需要提取其测量值。例如,我们可以直接使用RGB值,或者对图像进行滤波处理,或者执行一些更复杂的预处理。计算机视觉的目标或者需要解决的问题是使用这些测量值来推理全局状态。例如,在立体视觉中,我们尝试推断出场景的深度;在目标识别中,我们尝试推断某一特定类目标存在与否。

  • 为了实现目标,我们建立一个模型。模型描述了测量值与全局状态之间的一系列统计关系,这一系列统计关系中的特殊成员是由一个参数集合确定的。在学习的过程中,选择这些参数,以便它们能够准确反映测量值与全局状态之间的关系;在推理的过程中,选用一组新的测量值,并利用学习后的模型来推理全局状态。学习和推理的方法包含在算法中。计算机视觉应该从以下几个方面来理解:目标、测量值、全局状态、模型、参数、学习和推理算法。

01
  • 我们可以根据这些量选择性地组织知识,但在作者看来,模型中最重要的内容是全局状态和测量值之间的统计关系。主要有三个原因:首先,模型的类型往往超越了应用(同一个模型可用于不同的视觉任务);其次,模型能够自然地把自身组织成一些可分开理解的系列(例如回归、马尔可夫随机场、相机模型);最后,在模型层次上讨论视觉问题使得我们能够得到那些貌似不相关的算法和应用之间的关联
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值