动态上下文信念(DCB)

DCB(动态上下文信念)是一个用于累积通过注视获得信息的状态表示组件。它由三个部分组成:

  1. Fovea(中央凹):接收来自注视位置周围区域的高分辨率视觉输入。
  2. Contextual beliefs(上下文信念):代表一个人对场景的整体“什么”和“哪里”的理解,以分类信心的水平表示。
  3. Dynamics(动态性):在搜索过程中,随着每次注视的变化,主动收集信息。

DCB能够有效地整合视觉输入、上下文信息和动态变化,从而提高搜索效率和准确性。它在IRL(逆强化学习)模型和其他方法(如BC-CNN)中用作状态表示,有助于改善模型的性能和数据效率。

 

这张图片展示了一个视觉处理系统的流程图,用于从输入图像中提取和处理视觉信息。流程如下:

  1. 输入图像:首先,系统接收一个高分辨率的输入图像。

  2. 低分辨率图像:输入图像被转换为低分辨率版本,用于生成低分辨率的信念图(Low-res Beliefs)。

  3. 高分辨率信念图:同时,输入图像也用于生成高分辨率的信念图(High-res Beliefs)。

  4. 注视历史:系统还考虑了注视历史(Fixation History),这可能用于理解观察者的注视模式。

  5. 动态上下文信念:结合高分辨率和低分辨率的信念图以及注视历史,系统生成动态上下文信念(Dynamic Contextual Beliefs)。

  6. 单热任务嵌入:这些动态上下文信念被转换为单热任务嵌入(One-hot Task Embedding),用于识别和定位图像中的特定对象。

  7. 对象信念:最终,系统输出不同对象的信念图,如椅子、冰箱、微波炉和烤箱等,每个对象都有一个20x32的表示。

高分辨率和低分辨率信念图在DCB(动态上下文信念)模型中具有以下意义:

  1. 低分辨率信念图

    • 代表场景的整体信息,提供全局上下文。这些信息通常基于较少的计算资源和较大的视野范围,适用于捕捉场景中的大致结构和物体类别。
    • 用于在搜索的初始阶段快速识别可能的目标区域,帮助引导视线向潜在目标靠近。
  2. 高分辨率信念图

    • 提供注视点周围的详细信息,包括目标的具体特征和形状。这些信念图通常在具体的注视位置上生成,能够反映出清晰的细节。
    • 在搜索的后期阶段,帮助优化对目标的判断和识别,增强决策的准确性。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值