视线估计、凝视目标估计相关评价指标

1.TP、TN、FP、FN
\qquad TF表示待分类目标的GT值
\qquad PN表示预测到目标的正反例
在这里插入图片描述在目标检测类任务中:
\qquad TP:表示正确检测到待检测目标
\qquad TN:表示没有检测到待检测目标
\qquad FP:表示预测到了非检测目标
\qquad FN:表示没有检测到非监测目标(没有目标也没有检测到目标)
\qquad 参考链接:https://blog.youkuaiyun.com/dongjinkun/article/details/109899733’

2.精确率(Precision)、召回率(Recall)、准确率(Accuracy)
\qquad 原文链接:https://blog.youkuaiyun.com/littlehaes/article/details/83278256
\qquad 准确率(Accuracy):这三个指标里最直观的就是准确率: 模型判断正确的数据(TP+TN)占总数据的比例

在这里插入图片描述

\qquad 召回率(Recall): 针对数据集中的所有正例(TP+FN)而言,模型正确判断出的正例(TP)占数据集中所有正例的比例.FN表示被模型误认为是负例但实际是正例的数据.召回率也叫查全率,以物体检测为例,我们往往把图片中的物体作为正例,此时召回率高代表着模型可以找出图片中更多的物体!

在这里插入图片描述

\qquad 精确率(Precision):针对模型判断出的所有正例(TP+FP)而言,其中真正例(TP)占的比例.精确率也叫查准率,还是以物体检测为例,精确率高表示模型检测出的物体中大部分确实是物体,只有少量不是物体的对象被当成物体

在这里插入图片描述
\qquad 区分好召回率和精确率的关键在于:针对的数据不同,召回率针对的是数据集中的所有正例,精确率针对的是模型判断出的所有正例

3.角度误差
\qquad 在模型估计出 pitch 角和 yaw 角之后,可以计算出代表视线方向的三维向量,该向量与真实的方向向量(ground truth)之间的夹角即是 gaze 领域最常用的评价指标。
图片链接:https://blog.youkuaiyun.com/c9Yv2cf9I06K2A9E/article/details/105400845
\qquad 图片链接:https://blog.youkuaiyun.com/c9Yv2cf9I06K2A9E/article/details/105400845

4.PR曲线、AUC指标
\qquad 参考链接:https://blog.youkuaiyun.com/weixin_37817275/article/details/115859550
\qquad PR曲线中的P代表的是precision(精准率),R代表的是recall(召回率),其代表的是精准率与召回率的关系,一般情况下,将recall设置为横坐标,precision设置为纵坐标。
在这里插入图片描述

\qquad 1. 如果一条曲线完全“包住”另一条曲线,则前者性能优于另一条曲线。
\qquad 2. PR曲线发生了交叉时:以PR曲线下的面积作为衡量指标,但这个指标通常难以计算。
\qquad 3. 使用 “平衡点”(Break-Even Point),他是查准率=查全率时的取值,值越大代表效果越优
5.ROC
\qquad 更多详细介绍参考链接:https://blog.youkuaiyun.com/weixin_37817275/article/details/115859550
\qquad ROC曲线的横坐标为FPR,纵坐标为TPR
\qquad 1.将预测结果按照预测为正类概率值排序
\qquad 2.将阈值由1开始逐渐降低,按此顺序逐个把样本作为正例进行预测,每次可以计算出当前的FPR,TPR值
\qquad 3.以TPR为纵坐标,FPR为横坐标绘制图像
在这里插入图片描述
\qquad ROC曲线下的面积(AUC)作为衡量指标,面积越大,性能越好。该指标经常被用来评价注视目标估计网络的性能。
6.欧氏距离(Dist.)
\qquad 最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = ( x 1 , . . . , x n ) x = ({x_1},...,{x_n}) x=(x1,...,xn) y = ( y 1 , . . . , y n ) y = ({y_1},...,{y_n}) y=(y1,...,yn)之间的距离为:
d ( x , y ) = ( x 1 − y 1 ) 2 + ( x 2 − y 2 ) 2 + … + ( x n − y n ) 2 = ∑ i = 1 n ( x i − y i ) 2 d(x,y) = \sqrt {{{\left( {{x_1} - {y_1}} \right)}^2} + {{\left( {{x_2} - {y_2}} \right)}^2} + \ldots + {{\left( {{x_n} - {y_n}} \right)}^2}} = \sqrt {\sum\limits_{i = 1}^n {{{\left( {{x_i} - {y_i}} \right)}^2}} } d(x,y)=(x1y1)2+(x2y2)2++(xnyn)2 =i=1n(xiyi)2
1.二维平面上两点 a ( x 1 , y 1 ) a({x_1},{y_1}) a(x1,y1) b ( x 2 , y 2 ) b({x_2},{y_2}) b(x2,y2)间的欧氏距离:
d 12 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 {{\rm{d}}_{12}} = \sqrt {{{\left( {{{\rm{x}}_1} - {{\rm{x}}_2}} \right)}^2} + {{\left( {{{\rm{y}}_1} - {{\rm{y}}_2}} \right)}^2}} d12=(x1x2)2+(y1y2)2
2.两个n维向量 a ( x 11 , x 12 , … , x 1 n ) {\rm{a}}\left( {{{\rm{x}}_{11}},{{\rm{x}}_{12}}, \ldots ,{{\rm{x}}_{1{\rm{n}}}}} \right) a(x11,x12,,x1n) b ( x 21 , x 22 , … , x 2 n ) b\left( {{{\rm{x}}_{21}},{{\rm{x}}_{22}}, \ldots ,{{\rm{x}}_{{\rm{2n}}}}} \right) b(x21,x22,,x2n)间的距离:
d 12 = ∑ k = 1 n ( x 1 k − x 2 k ) 2 {{\rm{d}}_{12}} = \sqrt {\sum\limits_{{\rm{k}} = 1}^{\rm{n}} {{{\left( {{{\rm{x}}_{1{\rm{k}}}} - {{\rm{x}}_{2{\rm{k}}}}} \right)}^2}} } d12=k=1n(x1kx2k)2

<think>嗯,用户想了解注视目标估计的方法和实现。首先,我需要回顾一下注视目标估计的基本概念。注视目标估计计算机视觉中的一个任务,旨在确定人眼注视的具体目标或区域。这涉及到分析眼动数据或眼部图像,结合场景信息来预测注视点。 根据引用[1],使用视觉显著性作为先验信息是首次尝试,这可能意味着传统方法可能没有充分利用这种数据。视觉显著性图可以突出显示图像中吸引注意力的区域,作为注视位置的线索。因此,基于显著性图的方法可能是一个方向。 引用[2]提到在现实环境中建立眼睛接触检测方法,结合基于外观的注视估计。这里的关键词是“基于外观”,即直接分析眼部外观特征(如虹膜、眼睑位置)来估计视线方向。这可能涉及深度学习模型,如CNN,来提取特征并回归注视方向。 引用[3]讨论了损失函数的设计,特别是显式定位与标签损失的影响。消融实验显示,缺少显式定位会降低性能,说明定位模块的重要性。同时,语义信息的监督可能提升定位效果,因为注视目标的选择与场景语义相关。因此,结合语义分割或目标检测模块可能有效。 接下来,需要整理这些方法。基于外观的方法可能使用CNN处理眼部图像,输出注视方向或坐标。多模态融合方法可能结合头部姿态、场景图像等信息。视觉显著性引导的方法利用显著性图作为先验,可能通过注意力机制整合到模型中。此外,目标检测与视线交汇的方法,先检测场景中的可能目标,再确定视线与哪个目标相交。 实现步骤方面,数据收集需要眼动仪和场景图像,标注注视坐标或目标标签。模型设计可能需要双分支结构,处理眼部图像和场景信息。损失函数可能需要结合定位损失(如均方误差)和分类损失(交叉熵)。后处理可能包括视线投影到3D场景或2D平面,确定最终目标。 优化方向可能包括多任务学习、数据增强、以及结合语义信息。例如,引用[3]中的标签损失和语义监督可以提升定位效果。此外,实时性优化如轻量级模型或模型压缩也很重要。 用户可能的应用场景包括人机交互、心理学研究、广告效果分析等。需要确保回答结构清晰,分点说明方法和实现步骤,并引用相关文献支持。同时,生成的相关问题要围绕技术细节、优化和应用展开。</think>### 注视目标估计方法及实现 注视目标估计(Gaze Target Estimation)旨在通过分析眼部运动或图像数据,推断用户注视的特定目标或空间位置。以下是主要方法及实现要点: --- #### 一、**核心方法** 1. **基于外观的注视估计** - 直接从眼部图像提取特征(如虹膜位置、眼睑轮廓),通过卷积神经网络(CNN)回归注视方向或目标坐标[^2]。 - 示例模型:使用ResNet等主干网络,输出三维注视向量$(g_x, g_y, g_z)$或二维屏幕坐标$(x, y)$。 - 公式:$$g = f_{\text{CNN}}(I_{\text{eye}})$$,其中$I_{\text{eye}}$为眼部区域图像。 2. **多模态融合方法** - 结合眼部图像、头部姿态、场景上下文等信息,提升复杂环境下的鲁棒性。 - 实现:使用双分支网络分别处理眼部图像和场景图像,通过注意力机制融合特征[^1]。 3. **视觉显著性引导** - 利用视觉显著性图(如Saliency Map)作为先验,缩小注视目标候选区域。 - 示例:将显著性图与视线方向联合建模,通过加权概率确定最终目标。 4. **目标检测与视线交汇** - 先检测场景中的潜在目标(如人脸、物体),再计算视线方向与目标的几何交点。 - 公式:$$t_{\text{target}} = \arg\min_{t_i} \text{distance}(g, t_i)$$,其中$t_i$为候选目标中心。 --- #### 二、**实现步骤** 1. **数据收集与标注** - 使用眼动仪(如Tobii)采集眼部图像及真实注视坐标。 - 标注数据形式:$(I_{\text{eye}}, I_{\text{scene}}, (x_{\text{gaze}}, y_{\text{gaze}}))$。 2. **模型设计(以多模态方法为例)** ```python # 伪代码:双分支注视估计网络 class GazeEstimationModel(nn.Module): def __init__(self): super().__init__() self.eye_encoder = ResNet() # 眼部特征提取 self.scene_encoder = CNN() # 场景特征提取 self.fusion_layer = CrossAttention() # 跨模态注意力融合 self.regressor = MLP() # 回归注视坐标 def forward(self, eye_img, scene_img): eye_feat = self.eye_encoder(eye_img) scene_feat = self.scene_encoder(scene_img) fused_feat = self.fusion_layer(eye_feat, scene_feat) gaze_xy = self.regressor(fused_feat) return gaze_xy ``` 3. **损失函数** - 常用均方误差(MSE)损失:$$L_{\text{gaze}} = \frac{1}{N}\sum_{i=1}^N \| \hat{g}_i - g_i \|^2$$ - 结合分类损失(如目标是否存在接触):$$L_{\text{total}} = L_{\text{gaze}} + \lambda L_{\text{contact}}$$[^3] 4. **后处理优化** - 视线投影:将估计的注视方向投影到3D场景或2D平面。 - 时间平滑:通过卡尔曼滤波或滑动窗口减少抖动。 --- #### 三、**关键优化方向** 1. **显式定位监督** 添加辅助任务(如目标区域分割)提升定位精度。 2. **数据增强** 模拟光照变化、头部偏转等增强泛化性。 3. **实时性优化** 使用轻量级网络(如MobileNet)或模型压缩技术。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

种蘑菇的金克斯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值