三维凝视估计,没有明确的个人校准2018

personal calibration个人校准 its practical utility它的实用价值

intrusive and subject-unfriendly calibration methods.干扰性和对受试者不友好的校准方法。

takes advantage of利用     natural constraints自然的约束

two complementary gaze estimation methods   两种互补的注视估计方法

underlying assumption  潜在的假设

is inspired by  灵感来源于  most fixations 大多数固定 arises from 来自

console based基于控制台的   certain regions特定区域

demonstrate the effectiveness of 证明了/验证了 ...的有效性

基于模型的三维注视估计是眼注视估计的主流技术。它允许自由头部运动,并给出了良好的估计精度。但它需要个人校准,这可能会大大限制其实际用途。各种各样的技术已经被提出来取代侵入式的和对受试者不友好的校准方法。本文提出了一种新的隐式标定方法,该方法利用了人眼注视跟踪过程中的四个自然约束第一个约束是基于两种互补的注视估计方法。潜在的假设是,不同的注视点估计方法,尽管基于不同的原理和机制,理想情况下预测完全相同的注视点在同一时间第二个约束是受著名的中心优先原则的启发,它假定在自然观看场景下,大多数注视都集中在屏幕的中心。第三个约束来自于基于主机的眼球追踪,人类的注意力/凝视总是在屏幕区域内最后一个约束来自眼睛解剖眼睛参数的值必须在特定区域内。将四种约束条件联合起来,将隐式校准问题转化为约束无监督回归问题,并通过提出的迭代硬EM算法进行有效求解。通过两种日常交互行为网页浏览和视频观看的实验验证了所提出的隐式标定方法的有效性。 

眼球注视跟踪是指实时跟踪人的注意力或预测人的注视位置。眼球注视跟踪技术已经应用到各个领域。在人机交互中,眼睛注视可以取代传统的鼠标点击动作,使交互动作快速、有趣、自然。例如,通过一个眼睛注视跟踪系统,我们可以在我们看的地方缩放,阅读时文本滚动,等等。这比传统的输入要快得多,也自然得多。眼动数据还可以帮助用户行为研究[1],医学研究-[2,3],了解人类的认知过程[4]等。已经提出了各种技术来执行眼睛注视跟踪。

凝视估计方法可分为基于模型的方法和基于回归的方法。

基于模型的方法[5-1 - 1]根据人眼/人脸的解剖结构建立了三维眼睛模型。利用不同的面部和眼部特征(面部标志、角膜、瞳孔等)之间的几何关系,可以计算出三维注视方向。随着这个方向的发展,人们提出了不同的特征提取方法[12-15]。基于三维模型的方法模拟了人类的视觉系统像人脑一样计算注视的方向。基于三维模型的方法以其准确性和处理头部运动的能力而闻名,目前在许多商用眼动仪中得到广泛应用。由于基于模型的方法需要人眼的知识和相关参数,因此需要进行个人校准以获得良好的精度。然而,个人校准需要用户的明确配合,这使得眼动跟踪系统的使用变得不友好,降低了用户体验。

基于回归的方法利用强大的学习技术,并假设从眼睛外观/特征到注视位置/方向的映射。与基于模型的方法相比,它们避免了对复杂的眼球结构进行建模只需要收集大量的数据。基于回归的方法可以进一步分为基于特征的方法和基于外观的方法。基于特征的回归方法[16-19]学习从眼睛特征到注视位置/方向的映射函数。典型的眼睛特征包括瞳孔-闪烁向量、瞳孔角向量、闪烁之间的交叉比等。基于外观的回归方法[20-23]学习从眼睛外观到注视位置/方向的映射函数。学习算法包括传统的支持向量回归、随机森林和最新的深度学习技术。然而,基于回归的方法通常遭受头部运动问题,没有使用额外的数据来补偿运动。

Eye gaze tracking technology has been applied to various fields.眼球注视跟踪技术已经应用到各个领域。

For instance,例如,      regression-based methods回归方法   geometric relations几何关系

Leveraging on. 利用上           mimic 模仿,摹拟

explicit collaboration 明确的协作

The learning algorithms range from tra- ditional support vector regression, random forest to most recent deep learning techniques学习算法包括传统的支持向量回归、随机森林和最新的深度学习技术

此外,学习算法也需要大量的数据来学习一个好的映射函数。我们建议读者参考[24]来更详细地讨论不同的眼睛注视跟踪方法。

 基于模型和基于回归的方法都需要个人校准。校准程序需要用户的明确配合,这可能不适用于某些应用(婴儿的眼球追踪)。对于具有协作能力的用户来说,该程序具有干扰性,降低了用户体验。为了消除显式的个人校准,我们建议在自然人机交互过程中更好地利用信息。尽管这些信息很重要,但在眼球注视跟踪过程中,这些信息通常被忽略了。受试者在电脑上自然操作的同时,通过后台获取信息,使眼部注视跟踪更加有趣和友好。具体地说,我们根据信息制定了四个约束条件第一个是互补凝视约束,它的灵感来自[25]中引入的双筒望远镜约束。双目限制表明,从两只眼睛估计的注视位置应该完全相同。但是双目限制的使用限制了头部的移动,因为它需要两只眼睛都在相机的视野中。不同的是,我们假设两种注视估计方法在同一时间准确地预测同一注视点。这两种方法基于不同的原则和机制,但相互补充。我们选择的两种方法是基于三维模型的方法和基于特征的回归方法第二个约束来自著名的中心优先原则。据推测,当用户观看视频时,大多数凝视都集中在屏幕中央附近。 

certain applications某些应用程序

formulate four constraints制定四个约束

iterative [数]迭代的;重复的,反复的

Compared with existing work on reducing/eliminating explicit  personal calibration, the proposed method makes following novel  contributions:与现有的减少/消除显式个人校准的工作相比,本文提出的方法有以下新的贡献:

、non-intrusiveadj. 非入侵式的;非侵入性的

natural constraints.自然的约束。

The proposed method achieves comparable gaze estimation ac-  curacy with state-of-the-art implicit calibration methods, while  is less restricted and can be applied to a wider range of practi-  cal applications.该方法采用最先进的隐式标定方法,获得了相当的注视估计精度,同时限制较少,可应用于更广泛的实际应用。

第三,假设人类的注意力/凝视总是在屏幕区域内停留一段时间最后,从人眼解剖来看,个人人眼参数必须有合理的值。这四个约束被集成成一个约束无监督学习问题通过提出的迭代硬em算法可以有效地解决这个问题

与现有的减少/消除显式个人校准的工作相比,本文提出的方法有以下新的贡献:

•提出了一种非侵入性和用户友好的眼睛注视跟踪系统

•个人眼睛参数可以与自然约束隐式校准

•提出硬em算法来解决有约束无监督回归问题。

•提出的方法通过最先进的隐式校准方法实现了可比的凝视估计精度,同时限制较少,可以应用于更广泛的实际应用。 

【2. 相关工作】

【之前的工作】

很多工作已经做了减少/消除基于模型的方法的显式个人校准

Guestrin和Eizenman[7]提出了一种用两个摄像头和四个红外灯进行1点标定的方法。通过利用眼睛的几何知识,他们的系统只有两个未知的个人参数。因此,一个参考点给出两个方程就足以求解两个眼参数。然而,他们的方法仍然需要用户的明确协作。

model和Eizenman[25]在双目约束的基础上求解两种人眼参数。他们假设两只眼睛的注视方向相交于显示设备上的同一注视点。但是,这种方法在较大的显示器上应用有限,在一般的小显示器上不能产生良好的效果。

Maio等人[22]提出通过在框架中引入额外的与人无关的通用约束来缓解普通显示(36厘米× 28.7厘米)的问题 ,然而,基于双目约束的方法限制了头部的运动,因为摄像机需要捕捉两只眼睛实验设置比较复杂。

explicit per-  sonal calibration明确的个人校准

explicit collaboration明确的协作

binocular constraint 双目约束

the display device.显示设备。

general usage一般使用

additional generic person-independent  constraints附加的与人无关的通用约束

 

Chen和Ji[26]提出利用显著性图消除显式校准。建立了一个贝叶斯网络来表示光轴、视轴和眼睛参数之间的概率关系。假设用户的注意力被显著性图捕获,根据观察到的光轴,可以通过最大化后视来估计眼睛参数。

随后,Chen和Ji[27]扩展了工作,使用一般高斯分布(center prior)作为他们的先验模型来缓解显著性图的问题。然而,中心优先限制潜在的应用使其存在强烈的中心偏向凝视模式,如观看视频/图像。此外,他们的算法收敛时间也较长。

最近Wang等人[28]提出利用从深度模型学习到的注视(固定)图  fixation map 。通过最小化用户注视分布(眼睛参数的函数)和潜在注视(固定)图之间的KL差异,他们能够恢复眼睛参数。该方法虽然具有注视(固定)地图代替显著性地图的优点,但需要显式的用户协作来查看显著性内容,注视(固定)地图的计算需要一定的时间。 

probabilistic relationship概率关系optical axis,光学轴, 

maximizing the posterior given the observed optical axes.根据观察到的光轴使后验最大。根据观察到的光轴,可以通过最大化后视

prior model先验模型

alleviate减轻,缓和

takes a longer time  to converge.需要更长的时间收敛。

Recently Wang et al. [28] proposed to leverage on the  fixation map learned from a deep model.

最近Wang等人[28]提出利用从深度模型学习到的注视图。

KL divergenceKL差异underlying fixation map潜在注视图

 

Alnajar等人[29]提出利用人类的注视模式来消除个人校准。假设不同的对象对同一刺激物有相似的注视模式。因此,离线学习的注视模式可以用来估计回归系数为一个新的主题。然而,潜在的假设仍然过于强烈和不切实际。刺激的不同类型、不同内容可能导致不同被试的注视模式不同,因此所提出的方法可能不能应用于实际生活中。

Lu等人[20]提出了另一个与凝视模式相关的类似想法。通过探索二维(2D)凝视歧管,他们能够完全从二维眼睛外观恢复相对凝视位置。利用任务相关的领域知识,可以将恢复的未校准注视模式映射到真实的注视位置。然而,他们的方法不能处理头部运动,当头部运动存在时,二维凝视流形假设不再成立。

Sugano等人[30]提出使用鼠标点击隐式收集训练数据。他们假设用户在点击鼠标时会不自觉地看着光标。眼睛外观和凝视位置对隐式收集和用于学习回归参数。然而,除了用户在点击鼠标时可能不看光标之外,许多应用程序/交互只需要点击几下鼠标(观看视频、阅读网站上的文章等)。在这种情况下,校准算法可能需要更长的时间来收敛

regression coefficients回归系数 

uncalibrated gaze  pattern未校准的凝视模式

with task-dependent  domain knowledge.具有任务相关的领域知识。

unconsciously look无意识地看

Eye appearance and gaze position pairs眼睛外观和凝视位置成

watching videos, reading articles on the website,  etc观看视频,阅读网站上的文章,等等

随后,Sugano et al.[31]引入了一种基于视觉显著性的校准框架。与他们之前的工作类似,通过假设用户看视频帧的显著区域/物体,他们能够隐式地收集外观/凝视位置对,并使用它们来计算回归参数。无论如何,它也遭受了基于显著性的应用程序的常见问题。

Pfeuffer等人[32]提出使用移动目标使校准更灵活、更简单。研究了眼动与目标轨迹之间的相关性,实现了隐式标定。然而,这种假设在实践中可能不成立,受试者需要关注一段时间的移动目标

总而言之,现有的方法仍然需要用户在一定程度上的协作,或者对用户在实验中所看的地方做出强烈的假设,或者实际效用有限。

不同的是,本文该方法不假设特定的交互场景或屏幕上的特殊内容,而是默默地收集信息来估计个人的眼睛参数。因此,所提出的方法实现了非侵入性和用户友好的眼睛注视跟踪,同时实现了与显式校准方法相比可媲美的注视估计精度

converge聚合;集中于一点 收敛

 salient 显著

Pfeuffer et al. [32] proposed to

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值