自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 基于C语言的线程池设计与实现探讨

线程池是一种预先创建多个线程,并将其统一管理的机制。在高并发环境下,通过复用线程来执行任务,线程池能够有效降低线程创建和销毁的频率,减少系统开销,同时提高系统的响应速度和吞吐量。此外,线程池还能对并发数进行限制,避免因线程数过多导致的资源竞争问题。本文实现了一个基于C语言的简易线程池,涵盖了任务队列、工作线程管理、任务添加、线程池销毁等核心模块。通过对比常见的线程池设计,读者可以更深入理解线程池的底层机制。实际开发中,可以根据具体需求对线程池进行优化和扩展,如调整任务队列的大小、动态调整线程数量等。

2025-03-18 09:52:14 604

原创 ubuntu 已匹配蓝牙耳机但是连接不上 (亲测可用)

去掉ControllerMode的注释,并修改模式为bredr模式,即:ControllerMode = bredr,

2025-03-15 15:52:18 94 1

原创 线程同步:多线程编程的核心机制

线程同步:多线程编程的核心机制

2025-03-14 21:21:28 467

原创 DRIVER SCANPATH PREDICTION BASED ON INVERSE REINFORCEMENT LEARNING

通过扫描路径预测建模驾驶员注意力分配在推动自动驾驶能力发展和提高事故预判方面起着关键作用。现有研究主要预测人类扫描路径以应用于视觉搜索、视觉问答和自由观看等任务,而很少有研究关注驾驶场景中的扫描路径预测。为了解决这一问题,我们提出了一种基于逆强化学习(IRL)的对抗学习方法,以有效预测不同驾驶任务中的类人扫描路径。具体而言,我们引入了一种基于的架构来构建生成器(Generator)和判别器(Discriminator)模型,同时结合自上而下(top-down)自下而上(bottom-up)

2025-02-14 17:19:08 662

原创 Pathformer3D: A 3D Scanpath Transformer for 360° Images(浅看)

此外,以上方法都在360°图像的2D等距矩形投影上进行预测,而该投影存在由经度引起的坐标不连续性(例如,-180°和180°代表相同的注视点,尽管它们的数值差异很大),以及不同位置的扭曲问题。为了解决上述问题,我们提出了一种新颖的360°图像扫描路径预测模型,命名为Pathformer3D,该模型在360°图像的3D球面坐标系中预测注视点,并直接建模注视点之间的时间依赖关系,从而更真实地模拟人类在沉浸式环境中的视觉行为。360°图像中的扫描路径预测指的是在探索360°图像时,预测人类的视线移动路径。

2025-02-03 15:45:48 1147

原创 Learning from Observer Gaze: Zero-Shot Attention Prediction Oriented by Human-Object Interaction

大多数现有的注意力预测研究集中于突出实例,如人类和物体。然而,由于人类观察者对实例之间交互的理解所引发的更为复杂的面向交互的注意力,仍然未得到充分探索。这对于推动人机交互和以人为中心的人工智能同样至关重要。为了填补这一空白,我们首先收集了一个新的凝视注视数据集——IG,该数据集包含了来自740个不同交互类别的530,000个注视点,捕捉了人类观察者在理解交互过程中的视觉注意力。随后,我们提出了零-shot面向交互的注意力预测任务(ZeroIA),该任务挑战模型预测在训练过程中未遇到的交互的视觉线索。

2025-01-27 13:43:15 763

原创 Visual ScanPath Transformer: Guiding Computers to See the World

我们提出利用扫描路径预测技术来模拟人类视觉系统,自动生成VR/AR应用中的注视扫描路径,以减少在中心视区渲染中的设备和计算成本。具体来说,我们提出了一种基于深度学习的扫描路径预测模型——视觉扫描路径变换器(VSPT),用于预测人类在自由观看和任务驱动观看情境下的注视扫描路径,基于这些路径,VR/AR系统可以快速且低成本地执行中心视区渲染。VSPT首先从视觉场景中提取高度与任务相关的图像特征,然后探索所有图像区域之间的全局依赖关系,为每个图像区域生成一个全局特征。

2025-01-17 12:49:49 580

原创 Predicting Visual Search Target by Spatiotemporal Semantic Modeling of Gaze Scanpath

我们提出了一种新的方法,称为凝视扫描路径变换器(Gaze Scanpath Transformer),用于在视觉搜索任务中预测搜索目标类别。以前的视觉搜索目标估计方法仅关注凝视注视位置的图像特征。因此,之前的方法无法考虑凝视扫描路径的时空信息,也缺乏对凝视注视位置上物体语义相互关系的考虑。与此不同,我们的方法能够基于凝视扫描路径的时空信息以及凝视注视位置上图像语义特征之间的相互关系来估计视觉搜索目标。

2025-01-13 16:36:23 596

原创 Predicting Human Scanpaths in Visual Question Answering

注意力一直是人类和计算机视觉系统的重要机制。尽管目前最先进的注意力预测模型专注于估计静态的概率显著性图,用于自由观看行为,但现实生活中充满了不同类型和复杂性的任务,视觉探索是一个时间过程,且对任务表现有重要贡献。为了填补这一空白,我们开展了首次研究,旨在理解和预测在执行一般任务过程中眼动注视的时间序列(即扫描路径),并研究扫描路径如何影响任务表现。我们提出了一种新的深度强化学习方法,用于预测在视觉问答中导致不同表现的扫描路径。在任务引导图的条件下,所提出的模型学习问题特定的注意力模式来生成扫描路径。

2025-01-03 22:50:58 862

原创 Look Hear: Gaze Prediction for Speech-directed Human Attention

为了使计算机系统能够有效地与人类通过口语互动,它们需要理解所生成的词语如何影响用户的逐时注意力。我们的研究集中在当一个人看到图像并听到定义应被凝视的场景中物体的指代表达时,注意力的增量预测上。为了预测在这一增量物体指代任务中的注视扫描路径,我们开发了模型,该模型预测每个词语在指代表达中激发的人类凝视。ART 使用多模态的 Transformer 编码器来共同学习凝视行为及其基础的任务引导,同时使用自回归的 Transformer 解码器根据凝视历史为每个词语预测可变数量的注视点。

2025-01-03 15:28:32 703

原创 State-of-the-Art in Human Scanpath Prediction

近年来,预测人类在观看图像时的注视扫描路径的模型出现了激增。然而,该领域缺乏对这些模型在预测能力方面的系统比较。过去,模型通常通过比较人类扫描路径和模型生成的扫描路径来进行评估。而在本研究中,我们评估模型的方式是基于模型如何预测扫描路径中的每个注视点,给定之前的扫描路径历史。这使得模型评估与认为是扫描路径生成背后的生物过程紧密相关,并且能够以直观且可解释的方式应用已有的显著性度量标准,如AUC和NSS。

2024-12-03 18:21:53 568

原创 Predicting Goal-directed Attention Control Using Inverse-Reinforcement Learning

理解目标状态如何控制行为是一个可以通过机器学习新方法深入探讨的问题。这些方法需要大型的标注数据集来训练模型。为了对一个大规模图像数据集进行标注,使其包含观察到的搜索注视点,我们收集了16,184个注视点,这些注视点来源于人们在一个包含4,366张图片(来自MS-COCO数据集)的数据集中搜索微波炉或钟表的行为。然后,我们使用这一行为标注的数据集,以及机器学习中的逆强化学习(IRL)方法,学习了针对这两种目标的目标特定奖励函数和策略。

2024-11-25 16:55:34 873

原创 Predicting Human Scanpaths in Visual Question Answering

注意力是人类和计算机视觉系统中的重要机制。尽管当前最先进的模型关注通过自由观察行为估计静态概率显著性图,现实场景中充满了类型和复杂性各异的任务,视觉探索是一个影响任务表现的时间过程。为弥合这一差距,我们首次研究和预测人类在执行通用任务时的眼动时间序列(即注视路径),并探讨注视路径如何影响任务表现。我们提出了一种新的深度强化学习方法,用于预测视觉问答任务中导致不同表现的注视路径。在任务引导图的条件下,所提出的模型学习特定问题的注意力模式以生成注视路径。

2024-11-21 16:18:25 747

原创 Target-absent Human Attention

预测人类注视行为对于构建能够预测用户注意力的人机交互系统非常重要。已经开发出计算机视觉模型来预测人们在搜索目标物体时的注视点。但当目标不存在于图像中时,又该如何处理呢?同样重要的是要了解当人们找不到目标时,他们如何进行搜索,以及何时停止搜索。在本文中,我们提出了一种数据驱动的计算模型,解决了搜索终止问题,并预测了人们在搜索图像中没有出现目标时的搜索注视路径。我们将视觉搜索建模为一个模仿学习问题,并通过一种新的状态表示方法来表示观察者通过注视点所获得的内部知识,称为聚焦特征图(FFMs)。

2024-11-20 19:40:56 832

原创 Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers

大多数视觉注意力模型旨在预测自上而下或自下而上的控制,这些控制通过不同的视觉搜索和自由观看任务进行研究。本文提出了人类注意力变换器(Human Attention Transformer,HAT),这是一个能够预测两种形式注意力控制的单一模型。HAT采用了一种新型的基于变换器的架构和简化的视网膜模型,这些共同构建了一种类似于人类动态视觉工作记忆的时空意识。HAT不仅在预测目标呈现和目标缺失视觉搜索中的注视扫描路径以及“无任务”自由观看中表现出色,成为新一代最先进的技术,还使人类注视行为变得可解释。

2024-11-19 22:03:00 1022

原创 动态上下文信念(DCB)

结合高分辨率和低分辨率的信念图以及注视历史,系统生成动态上下文信念(Dynamic Contextual Beliefs)。:这些动态上下文信念被转换为单热任务嵌入(One-hot Task Embedding),用于识别和定位图像中的特定对象。:最终,系统输出不同对象的信念图,如椅子、冰箱、微波炉和烤箱等,每个对象都有一个20x32的表示。:输入图像被转换为低分辨率版本,用于生成低分辨率的信念图(Low-res Beliefs)。DCB(动态上下文信念)是一个用于累积通过注视获得信息的状态表示组件。

2024-10-31 14:48:26 266

原创 牛马阅读《Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed Human Attention》

预测人类注视在人与计算机交互(HCI)中非常重要。然而,为了实际服务于HCI应用,注视预测模型必须具备可扩展性、快速性和在空间和时间上准确的注视预测。近期的扫描路径预测模型集中在目标导向的注意力(搜索)上。这类模型在应用上存在限制,主要是因为它们通常依赖于针对所有可能物体的训练目标检测器,以及用于训练的人类注视数据的可用性(这两者都不具备可扩展性)。

2024-10-28 16:26:05 929

原创 transformer的新手疑问

Transformer模型的原理主要基于。它的设计不依赖传统的循环神经网络(RNN)或卷积神经网络(CNN),而是通过并行的方式处理序列数据,极大提高了训练效率和性能。

2024-10-25 15:43:38 380

原创 理解一下SpFormer架构以及论文知识点

1024程序员节 | 征文#

2024-10-24 16:12:05 1530

原创 牛马阅读《SpFormer: Spatio-Temporal Modeling for Scanpaths with Transformer》

saccadic scanpath(扫视路径)是人类视觉行为的数据表示,在多个领域受到了广泛关注。扫视路径是一种复杂的眼动追踪数据形式,包括注视位置序列和注视持续时间,结合了图像信息。然而,以前的方法通常面临注视特征的空间错位问题以及关键时间数据的丢失(包括时间相关性和注视持续时间)。在本研究中,我们提出了一种基于Transformer的扫视路径模型SpFormer,以缓解这些问题。首先,我们提出了一种以注视为中心的范式,以提取对齐的空间注视特征并对扫视路径进行标记。

2024-10-23 17:54:29 1241

原创 视觉注意力模型的分析

1. Itti背景:基于人类视觉系统的生理特征,Itti模型是视觉显著性研究的奠基之作。 机制:通过提取颜色、亮度和方向等多种视觉特征,构建多个特征图。这些特征图经过抑制和竞争机制处理,形成一个显著性图,最终决定注意力的焦点。 应用:广泛应用于计算机视觉任务,如目标检测和图像分割。2. AWS (Adaptive Whitening Saliency)背景:旨在动态识别重要视觉信息的模型,结合了图像处理和心理学原理。 机制:通过滑动窗口的方式在图像上移动,使用自适应白化技术增强图像特征,

2024-10-22 21:29:10 877

原创 详细说明如何使用C++编写A*算法

它结合了广度优先搜索的全面性和深度优先搜索的效率,通过估计当前路径代价和到达目标的预估代价,来找到从起点到目标的最短路径。类型的指针,它指向当前节点的父节点。在路径搜索树中,每个节点(除了根节点)都有一个父节点,指向它在树中的直接上级。这个指针用于重建从起点到终点的路径,一旦找到终点,可以通过追踪这些父节点指针回溯到起点。通过构建一个优先队列,A*算法每次从未探索的节点中选择f值最小的节点进行扩展,直至找到目标节点或遍历完整个搜索空间。

2024-10-19 11:17:13 1714

原创 牛马阅读(知识+重点翻译) Advanced Deep-Learning Techniques for Salient and Category-Specific Object Detection

目标检测,包括目标检测(OD)、显著目标检测(SOD)和特定类别的目标检测(COD),是计算机视觉界最基本但最具挑战性的问题之一。在过去的几十年中,研究人员已经做出了巨大的努力来解决这个问题,因为它在其他计算机视觉任务(如活动或事件识别、基于内容的图像检索和场景理解)中得到了广泛的应用。虽然近年来提出了许多方法,但仍然缺乏对所提出的高质量对象检测技术的全面审查,特别是对于基于高级深度学习技术的技术的技术。为此,本文深入研究了该研究领域的最新进展,包括 1)每个子方向的定义、动机和任务;

2024-10-18 22:44:01 1233

原创 扫视扫描路径预测的评估:主观评估数 据库和基于循环神经网络的度量 记录

通过分析不同指标下的表现(如HD-AUC、MMD-AUC),可以识别出算法在哪些方面需要改进,例如,如果发现HD-AUC值较大,说明预测路径与参考路径差异较大,需要优化算法以减少这种差异。:扫描路径相似度(SS)指标,如SS-All和SS-AUC,提供了预测路径与参考路径在整体上相似性的评价。但在您提供的数据中,AUC似乎用于表示形状相似度,这种情况下,较高的AUC值也表示更好的相似度。它反映了观察者的视觉注意力在空间上的变化。HD值越小,表示预测路径与参考路径之间的差异越小,因此HD值越小越好。

2024-10-17 11:44:32 1034

原创 darknet_ros 使用教程

darknet_ros 使用教程

2024-10-14 18:25:25 521

原创 Pytorch(笔记8神经网络nn)

torch.nn是专门为深度学习而设计的模块。torch.nn的核心数据结构是Module,它是一个抽象的概念,既可以表示神经网络中的某个层(layer),也可以表示一个包含很多层的神经网络。在实际使用中,最常见的做法是继承nn.Module,从而编写自己的网络/层。下面先来看看如何用nn.Module实现自己的全连接层。

2024-07-11 15:22:58 1566 1

原创 Pytorch(笔记7损失函数类型)

beta=1.0是PyTorch中SmoothL1Loss的默认值。这个值的选择是基于经验和实践的,旨在在L1损失和L2损失之间找到一个平衡点,以便在大多数情况下都能获得良好的性能。调整beta的值可以改变损失函数对误差的敏感度。较小的beta值会使损失函数在误差较小时更加接近L2损失,从而在原点附近更加平滑;较大的beta值则会使损失函数更早地过渡到L1损失的形式,从而减少对大误差的惩罚。

2024-07-05 15:47:27 1531

原创 xml 转 txt ,轻松转变(亲测有效)

【代码】xml 转 txt ,轻松转变(亲测有效)

2024-07-04 16:15:53 672

原创 OpenCV(绘图功能笔记)

学习使用OpenCV绘制不同的几何形状cv.line(),cv.circle(),cv.rectangle(),cv.ellipse(),cv.putText()等。

2024-07-03 20:57:24 886

原创 OPENCV(视频入门笔记)

通常情况下,我们必须用摄像机捕捉实时画面。提供了一个非常简单的界面。让我们从摄像头捕捉一段视频(我使用的是我笔记本电脑内置的网络摄像头) ,将其转换成灰度视频并显示出来。只是一个简单的任务开始。要捕获视频,需要创建一个 VideoCapture 对象。它的参数可以是设备索引或视频文件的名称。设备索引就是指定哪个摄像头的数字。。所以我简单地传0(或-1)。你可以通过传递1来选择第二个相机,以此类推。在此之后,你可以逐帧捕获。但是在最后,不要忘记释放俘虏。第一个参数返回布尔值(True/ False)

2024-07-03 14:57:17 708

原创 OPENCV(图像入门笔记)

使用OpenCV读取图像 展示图像

2024-07-03 09:43:33 575

原创 激活函数(1)笔记

最受欢迎的激活函数是修正线性单元(Rectified linear unit,ReLU),因为它实现简单,同时在各种预测任务中表现良好。ReLU提供了一种非常简单的非线性变换。

2024-07-01 19:23:30 986

原创 Pytorch(笔记6)

生成数据集 读取数据集

2024-07-01 11:02:57 605

原创 Pytorch(笔记5)

导数和微分 自动微分 分离计算

2024-07-01 08:23:59 805

原创 Pytorch(笔记4)

降维 矩阵乘法 范数

2024-06-29 21:49:32 777

原创 Pytorch(笔记3)

为了能用深度学习来解决现实世界的问题,我们经常从预处理原始数据开始,而不是从那些准备好的张量格式数据开始。在Python中常用的数据分析工具中,我们通常使用软件包。像庞大的Python生态系统中的许多其他扩展包一样,。

2024-06-29 14:35:15 334

原创 Pytorch(笔记2)

在某些情况下,即使形状不同,我们仍然可以通过调用 广播机制(broadcasting mechanism)来执行按元素操作。你尝试对两个形状不匹配的张量进行元素级(element-wise)操作时,如加法、减法、乘法等,PyTorch会尝试进行广播(broadcasting)以使得这两个张量在形状上兼容。广播是一种强大的机制,它允许NumPy和PyTorch等库对形状不同的数组进行数值计算。在任何其他Python数组中一样,张量中的元素可以通过索引访问。

2024-06-28 15:41:59 858

原创 Pytorch(笔记1)

(Tensor)张量表示一个由数值组成的数组,这个数组可能有多个维度。具有一个轴的张量对应数学上的向量(vector);具有两个轴的张量对应数学上的矩阵(matrix);具有两个轴以上的张量没有特殊的数学名称。

2024-06-28 11:48:35 249

原创 了解KMP算法(包含BF算法,RK算法比较)

KMP算法在字符串匹配领域具有重要地位,其高效的匹配速度和广泛的应用场景使其成为计算机科学领域的一个经典算法。

2024-06-23 21:43:24 869

原创 Rabin Karp 算法

了解RK算法

2024-06-19 16:41:32 725

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除