68、视觉注意力计算模型与人体检测算法研究

视觉注意力计算模型与人体检测算法研究

视觉注意力计算模型

评估方法

在对视觉注意力计算模型进行评估时,针对不同类型的数据采用了不同的评估方式:
- 人工模式或心理图像 :通过列举几种情况下的结果,对每个模型进行主观评估。
- 自然数据 :以更定量的方式,将每个模型的输出与所谓的“真实数据”进行比较。真实数据基于人类视觉行为,主要包括两种类型:
- 注视点图 :通过眼动追踪设备记录人类在一张图像内的注视点,是一种二进制地图,逻辑 1(注视点)散布在整个图像上。
- 标注区域图 :同样是二进制地图,由多个受试者标注出的连续区域表示逻辑 1。
为了衡量每个模型预测人类注视点的能力,选择了 AUC(ROC 曲线下面积)指标。同时,对显著性图进行中心偏差和高斯平滑处理会对 AUC 指标的结果产生很大影响。中心偏差操作是将显著性图与高斯掩码进行哈达玛积,而高斯滤波可以使显著性区域获得更好的视觉效果和更高的一致性。为了进行公正无偏的比较,如果模型本身没有进行这些操作,会对其生成的显著性图进行相应处理。

自然图像显著性检测

在自然图像测试中,所有模型都在包含 Bruce 的注视点数据、Hou 的标注数据和 Achanta 的标注数据的数据库上运行,这些数据库分别包含 120、58 和 1000 张自然图像。具体操作步骤如下:
1. 对所有显著性结果进行高斯平滑处理,参数设置为 σ = 0.04×宽度。
2. 平滑后,将显著性图与参数为 σx = 宽度/4 和 σy = 高度/4 的高斯核相乘,以实现中心偏差效果。

从结果来看,不同模型表现各异:
| 模型 | 表现 |
| — | — |
| 本文模型 | 对小的和大的显著区域都有效 |
| PQFT 和 NVT | 仅突出小物体或边缘 |
| FTS | 在需要方向信息或显著物体相对较小时失效 |
| HFT | 结果不如本文模型令人满意 |

在 AUC 指标方面,本文模型优于其他模型。同时,其他模型存在一些缺陷:
- HFT 模型:由于对输入图像进行了调整大小以及 I、RG 和 BY 通道的固定权重,存在缺陷。
- NVT 模型:中心 - 环绕操作排除了大部分低频部分,而低频部分在显著区域相对较大时贡献很大。
- PQFT 模型:完全丢弃了幅度谱,仅利用相位信息构建显著性图,导致只有边缘突出。
- FTS 模型:仅在自己的数据库(大多数图像具有大的显著区域)上有效,在其他数据库上失效,这表明方向是一个重要特征,保留大部分频率成分对于计算显著性既不必要也不充分。

人工图像显著性检测

不同类型的心理模式构成了另一个测试平台,这些图像是衡量注意力模型性能的重要标准。从结果可以看出,本文模型和 HFT 模型在处理心理模式方面表现出良好的潜力,而 NVT 和 PQFT 效果较差,FTS 性能最差。不过,对于一些情况,如结合情况,可能需要更多的高级特征或自上而下的知识,而本文模型中并未包含这些内容。

模型总结

本文从频带分解的角度提出了一种显著性模型,虽然在空间域实现,但主要包括两个步骤:
1. 对输入图像在不同级别进行 Gabor 分解,生成数十个特征图。
2. 选择 2D 熵作为指标,选择最佳尺度(或频带)并整合特征图。

该方法在各种刺激下,包括人工图像和具有大或小显著区域的自然图像,都优于其他方法。此外,尽管这是一个自下而上的模型,但可以更轻松地包含自上而下的方式或先验知识。然而,该模型也存在一些缺点:
- 与 PQFT 或 FTS 相比,该算法需要更多的计算成本。
- 2D 熵作为融合和选择特征图的度量缺乏生物学支持。

未来的工作是探索 2D 熵的生物学基础,或者用其他更具生物学合理性的方法替代它。同时,自上而下的机制在利用注意力模型进行遥感图像中的机场或建筑物检测时变得更加重要。

人体检测算法

算法背景

脉冲无线电超宽带(IR - UWB)雷达在反恐、灾后搜索救援等特定情况下的人体目标搜索和检测中发挥着重要作用,它主要利用了其对障碍物的良好穿透性和高距离分辨率,通过检测呼吸信号来检测人体目标。传统的基于功率谱密度(PSD)的生命检测算法仅适用于高信噪比且噪声与呼吸频率范围不同的情况。然而,实际中 UWB 回波的信噪比通常较低,因为呼吸引起的胸部位移较小,反射信号容易受到强噪声污染,且雷达信号在穿过复杂结构时会出现强烈衰减。由于高斯过程的二阶以上频谱恒为零,非零的高阶频谱表示非高斯过程,因此高阶频谱分析(HOSA)通常用于研究受高斯噪声污染的非高斯信号,而准周期呼吸信号作为非高斯信号,适合用高阶频谱方法分析 IR - UWB 回波,以实现人体的自动准确检测。本文采用了三阶频谱——双谱分析算法。

测量系统

使用一套中心频率为 400 MHz、带宽为 100 MHz 的 IR - UWB 雷达系统,该系统符合联邦通信委员会(FCC)对 UWB 的定义。脉冲重复频率(PRF)为 250 KHz,发射功率为 5 mW。雷达由笔记本电脑控制,数据流通过 Wi - Fi 传输。IR - UWB 雷达回波由接收天线接收,经 AD 转换器采样后以数据矩阵的形式存储在笔记本电脑中。每个接收波形沿距离方向由 4096 个点组成,雷达系统的采样率约为 61 Hz,满足人类呼吸频率 2 - 3.5 Hz 的奈奎斯特采样定理。存储矩阵中,与每个接收波形的距离相关的时间轴称为快速时间(以纳秒为单位),而测量间隔的时间轴称为慢速时间(以秒为单位)。

实验设置

实验中,一个正常呼吸的人体静止站在 24 cm 厚的砖墙后面,分别距离雷达系统 3 m 和 4.5 m。存储的数据分别用双谱分析算法和基于 PSD 的传统算法进行分析,以比较两种算法的性能。

PSD 算法流程

为了提高信噪比,在计算 PSD 之前,采用了以下步骤:
1. 距离累积
2. 去除直流分量(DC)和线性趋势(LT)
3. 在慢速时间维度进行低通滤波

考虑到呼吸信号在大多数情况下不超过 0.5 Hz,对 0.5 Hz 以下频率范围的 PSD 进行累积,累积值代表该点的幅度。以下是 PSD 算法的流程图:

graph TD;
    A[数据输入] --> B[距离累积];
    B --> C[去除 DC 和 LT];
    C --> D[低通滤波];
    D --> E[计算 PSD];
    E --> F[累积 0.5Hz 以下 PSD];
    F --> G[输出幅度值];

基于双谱分析的 RMD 算法

双谱分析是一种三阶的 HOSA,是三阶累积量的傅里叶变换。以下是双谱分析的相关定义:
考虑一个均值为零的实离散时间序列 x(n),其三阶累积量估计定义为:
[C_{x}(n,n + \tau_1,n + \tau_2)=E[x(n)x(n + \tau_1)x(n + \tau_2)]]
x(n) 的双谱为:
[B_{x}(\omega_1,\omega_2)=\frac{1}{(2\pi)^2}\sum_{\tau_1 = -\infty}^{\infty}\sum_{\tau_2 = -\infty}^{\infty}C_{x}(\tau_1,\tau_2)e^{-j(\omega_1\tau_1+\omega_2\tau_2)}]
也可以表示为:
[B_{x}(\omega_1,\omega_2)=H(\omega_1)H(\omega_2)H^{*}(\omega_1 + \omega_2)]
其中 H(ω) 表示 x(n) 的傅里叶变换。

具体算法步骤如下:
1. 为了降低计算复杂度,进行距离累积:
[R_1(l,n)=\frac{1}{Q}\sum_{m = l - Q/2}^{l + Q/2 - 1}R(m,n)]
其中 x = 1, 2, …, X,Q 是距离维度的窗口大小,L = ⌊M/Q⌋ 是该维度的压缩结果,⌊a⌋ 表示小于 a 的最大整数。
2. 对累积后的矩阵 R1(l, n) 的每一行信号 rl(n) 进行双谱估计:
- 将数据分割成 K 帧,每帧长度为 M 个样本,重叠率为 50%。
- 对每帧应用 FFT 算法,得到 X(k)(λ),其中 λ = 0, 1, … , M/2,k = 1, 2, … , K。
- 根据上述公式计算每帧的双谱,得到 bk(ω1,ω2),其中 k = 1, 2, … , K。
- 每个点信号的双谱是 K 帧双谱的平均值:
[B(\omega_1,\omega_2)=\frac{1}{K}\sum_{k = 1}^{K}b_k(\omega_1,\omega_2)]
由于双谱具有非凡的对称性,为了降低计算复杂度并保留双谱的全部信息,分析将集中在双谱平面的三角形 OAB(主域)上。对该主域进行累积,因为高斯噪声在该域内为零,而准周期呼吸信号不为零,累积双谱最大的点可视为人体目标的位置。以下是双谱分析算法的流程图:

graph TD;
    A[数据输入] --> B[距离累积];
    B --> C[分割成 K 帧];
    C --> D[FFT 计算];
    D --> E[计算每帧双谱];
    E --> F[平均 K 帧双谱];
    F --> G[主域累积];
    G --> H[确定人体位置];

实验结果与讨论

实验结果表明,双谱估计算法的性能优于基于 PSD 的算法。具体表现为:
- 值的差异 :人体所在点的值明显高于其他点。定义参数 K 来评估性能,K 是受影响区域的最高值与非受影响区域的最高值的商。双谱分析算法的 K 值可达 10,而基于 PSD 的算法的 K 值仅为 2 或 3。
- 受影响区域宽度 :双谱分析结果中的受影响区域比基于 PSD 的算法更窄,尤其是当人体距离雷达 4.5 m 时更为明显。受影响区域的宽度影响检测的准确性,越窄则检测越准确。

两种算法性能差异的主要原因是呼吸响应所在频率存在噪声。基于 PSD 的算法从理论本质上无法消除这种噪声,将噪声密度视为有用信号的一部分。虽然缩小累积频率范围在一定程度上可以防止噪声密度的加入,但需要准确的呼吸响应频率范围,而实际中很难事先获得该频率,尤其是在搜索救援等紧急情况下。相比之下,双谱分析算法本质上对高斯噪声免疫,无需考虑噪声和呼吸响应的频率范围是否重叠。

视觉注意力计算模型与人体检测算法的综合比较与实际应用探讨

两种模型的综合比较

性能优势对比
对比维度 视觉注意力计算模型 人体检测算法
数据适应性 适用于人工模式、心理图像、自然图像等多种类型数据 主要针对 IR - UWB 雷达检测人体目标场景
处理机制 通过 Gabor 分解和 2D 熵选择特征图,实现显著性检测 利用双谱分析处理雷达回波信号,检测人体呼吸信号
性能表现 在各种刺激下优于其他模型,能处理不同大小显著区域 双谱分析算法在低信噪比下性能优于基于 PSD 的算法
计算成本 相对 PQFT 或 FTS 计算成本较高 距离累积等操作可降低计算复杂度,但仍需一定计算资源
知识需求 可融入自上而下的知识,但当前模型未包含高级特征 主要基于信号处理知识,无需先验呼吸频率信息
应用场景差异
  • 视觉注意力计算模型 :可应用于图像分析、计算机视觉等领域,如目标识别、图像检索等,帮助计算机快速定位图像中的显著区域,提高处理效率。
  • 人体检测算法 :主要应用于反恐、灾后搜索救援等特定场景,利用 IR - UWB 雷达的穿透性和高分辨率,准确检测障碍物后面的人体目标。

实际应用中的挑战与解决方案

视觉注意力计算模型
  • 挑战
    • 计算成本较高,在实时处理大规模图像数据时可能存在性能瓶颈。
    • 对于一些复杂场景,如结合情况,缺乏高级特征和自上而下的知识,检测效果可能不理想。
  • 解决方案
    • 优化算法结构,采用并行计算等技术提高计算效率。
    • 引入更多的先验知识和高级特征,如结合深度学习模型,提升模型的适应性和准确性。
人体检测算法
  • 挑战
    • 雷达信号在复杂环境中传播时会受到多种干扰,影响检测准确性。
    • 不同人体的呼吸频率和幅度存在差异,增加了信号处理的难度。
  • 解决方案
    • 采用更先进的信号处理技术,如自适应滤波、降噪算法等,提高信号质量。
    • 建立人体呼吸信号的数据库,通过机器学习算法对不同人体的呼吸特征进行建模,提高检测的鲁棒性。

未来发展趋势

视觉注意力计算模型
  • 与深度学习的融合:将深度学习的强大特征提取能力与本文模型的频带分解思想相结合,进一步提高模型的性能。
  • 多模态信息融合:结合图像、视频、音频等多模态信息,实现更全面的注意力检测。
  • 应用拓展:在自动驾驶、虚拟现实等领域的应用将不断拓展。
人体检测算法
  • 智能化发展:利用人工智能技术实现自动检测、分类和预警,提高救援效率。
  • 多传感器融合:结合红外传感器、激光雷达等多种传感器,提高检测的准确性和可靠性。
  • 微型化和便携化:开发更小型、便携的雷达设备,方便在各种复杂环境中使用。

结论

视觉注意力计算模型和人体检测算法在各自的领域都具有重要的应用价值。通过对两种模型的研究和比较,我们可以看到它们在处理机制、性能表现和应用场景等方面存在差异。同时,在实际应用中也面临着一些挑战,需要不断地进行技术创新和优化。未来,随着科技的不断发展,这两种模型有望在更多领域发挥更大的作用,为人们的生活和工作带来更多的便利。

以下是两种算法在实际应用中的流程对比图:

graph LR;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A[视觉注意力计算模型应用]:::process --> B[输入图像]:::process;
    B --> C[Gabor 分解]:::process;
    C --> D[2D 熵选择特征图]:::process;
    D --> E[显著性检测]:::process;
    E --> F[输出结果]:::process;
    G[人体检测算法应用]:::process --> H[IR - UWB 雷达采集数据]:::process;
    H --> I[距离累积]:::process;
    I --> J[双谱分析]:::process;
    J --> K[人体检测]:::process;
    K --> L[输出结果]:::process;

综上所述,无论是视觉注意力计算模型还是人体检测算法,都在不断地发展和完善。我们期待这些技术能够在未来的实际应用中取得更好的效果,为社会的发展和进步做出更大的贡献。

MATLAB代码实现了一个基于多种智能优化算法优化RBF神经网络的回归预测模型,其核心是通过智能优化算法自动寻找最优的RBF扩展参数(spread),以提升预测精度。 1.主要功能 多算法优化RBF网络:使用多种智能优化算法优化RBF神经网络的核心参数spread。 回归预测:对输入特征进行回归预测,适用于连续值输出问题。 性能对比:对比不同优化算法在训练集和测试集上的预测性能,绘制适应度曲线、预测对比图、误差指标柱状图等。 2.算法步骤 数据准备:导入数据,随机打乱,划分训练集和测试集(默认7:3)。 数据归一化:使用mapminmax将输入和输出归一化到[0,1]区间。 标准RBF建模:使用固定spread=100建立基准RBF模型。 智能优化循环: 调用优化算法(从指定文件夹中读取算法文件)优化spread参数。 使用优化后的spread重新训练RBF网络。 评估预测结果,保存性能指标。 结果可视化: 绘制适应度曲线、训练集/测试集预测对比图。 绘制误差指标(MAE、RMSE、MAPE、MBE)柱状图。 十种智能优化算法分别是: GWO:灰狼算法 HBA:蜜獾算法 IAO:改进天鹰优化算法,改进①:Tent混沌映射种群初始化,改进②:自适应权重 MFO:飞蛾扑火算法 MPA:海洋捕食者算法 NGO:北方苍鹰算法 OOA:鱼鹰优化算法 RTH:红尾鹰算法 WOA:鲸鱼算法 ZOA:斑马算法
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值