【论文阅读笔记】SocialCircle:学习用于行人轨迹预测的基于角度的社交互动表示_socialcircle: learning the angle-based social inte-优快云博客

本文链接：https://blog.youkuaiyun.com/xyy_zlh/article/details/143690433

原文：SocialCircle: Learning the Angle-based Social Interaction Representation for Pedestrian Trajectory Prediction | IEEE Conference Publication | IEEE Xplorehttps://ieeexplore.ieee.org/document/10656248

源码：cocoon2wong/SocialCircle: ⭕️ Official codes for "SocialCircle: Learning the Angle-based Social Interaction Representation for Pedestrian Trajectory Prediction" (CVPR2024) (github.com)https://github.com/cocoon2wong/SocialCircle

前言：第二篇行人轨迹预测论文阅读笔记来了~复现了论文源代码，其实是训练了其中的一个模型并在上面测试了五个数据集，过程略艰辛（~~虽然跑出来的结果也......~~）

一、前言

本文作者受海洋动物通过回声定位水下同伴位置的启发，提出了新颖的想法：建立一个基于角度的可训练社交互动表示，名为SocialCircle，用于动态反映行人相对于目标智能体的交互。作者根据海洋动物定位同伴位置的方法，画出了智能体对潜在社会互动行为的反应过程图，如下图1：

目前在轨迹预测任务中的社交互动建模方法大致可以分为基于模型和无模型两类。基于模型的方法大多会设计一个通用数学模型，或者叫通用社交“规则”，但是现实生活的社交场景复杂多变，这种方法很难实现；无模型的方法利用数据驱动，设计神经网络来建社交互动模型，但是它们可能严重依赖于不同的网络结构，并且可解释性有限。

作者结合这两种方法，利用数据驱动方法结合基于模型的方法的可解释性来模拟交互行为。即用相对较弱的社交互动规则来约束学习过程，而不是像前面提到的基于模型的方法那样用坚实的数学规则来约束学习过程，这样能同时受益于规则和数据拟合能力。

二、本文方法

2.1 问题定义

对于场景图像 $I_{^{t_{h}}}$ ，智能体 $i$ 的历史轨迹（即坐标）定义为 $X_i = (p_1^i, \ldots, p_{{t_h}}^i)$ ，预测的轨迹定义为 $\hat{\mathbf{Y}}^i = \left( \hat{\mathbf{p}}^i_{t_h+1}, \ldots, \hat{\mathbf{p}}^i_{t_h+t_f} \right)$ ，其中 $p = (x, y)$ 。

2.2 SocialCircle

2.2.1 智能体之间的位置关系

邻居智能体 $j$ 与目标智能体 $i$ 的相对位置为 $\theta^i(j) \in [0, 2\pi)$ 。

2.2.2 SocialCircle的表示

一个智能体 $i$ 的SocialCircle表示可以看作一个首尾循环向量函数 $f^{i}(\theta )$ ，为了方便计算，将角度变量将离散成“分区“ $N_{\theta }$ ，这样智能体 $i$ 的SocialCircle表示为：

邻居满足角度范围的条件为：

邻居的数量定义为：

2.2.3 SocialCircle的元组成部分

每个SocialCircle分区通过三个元组件（Meta Components）——速度、距离和方向计算：

接下来详细介绍每个元组件。

速度（Velocity）。采用一个分区中所有邻居的“平均速度”来模拟这种社会交互因素。

距离（Distance）。在一个分区中取目标智能体与其所有邻居之间的平均欧几里得距离来模拟这种社会交互因素。

方向（Direction）。使用一个分区中所有邻居相对于目标智能体的平均角度来模拟这种社会交互因素。

2.2.4 社交互动的序列化建模

序列化建模如下图。 $g_{embed}$ 是包含2个完全连接层和64个输出单元的嵌入函数，ReLU激活用于第一层，tanh激活用于第二层。

为了同时学习交互序列化表示（即分区函数）和历史轨迹序列中的注意部分，作者把交互序列化表示视为虚拟时间序列，将其不够的地方进行填充，使其具有与轨迹数据相同的长度，以便后续的模型处理。填充后的 $f_{i}$ 为：

首先来看之前的大部分研究的预测模型，是独立分开输入轨迹信息和社交信息的，如下公式（11）：

作者提出的SocialCircle预测模型（如下公式（13））采用包含轨迹信息和交互上下文的融合向量 $f_{fuse}^{i}$ （如下公式（12）），代替单一的 $f_{traj}^{i}$ 轨迹，以此学习观察轨迹中的时间关注部分和 SocialCircle 中的角度关注部分，将轨迹和社交互动紧密结合，使得模型在预测时可以同时考虑轨迹和社交互动的动态变化，提高预测的准确性。

SocialCircle的计算过程如下图2：

整个社交互动序列化建模过程如下图3，最终得到SocialCircle化的骨干预测模型：

2.2.5 训练

注意！SocialCircle并没有引入额外的损失函数。而是以Transformer、MSN、v2 -Net、E-V2 -Net作为主干轨迹预测模型（这些模型将用他们论文中报告的原始损失函数和设置进行训练），在实验中验证SocialCircle的性能。

三、实验

训练设备

NVIDIA Tesla T4 GPU

数据集

ETH-UCY、Stanford Drone Dataset（SDD）、NBA SportVU（NBA）

度量指标

平均位移误差（ADE）、最终位移误差（FDE）

实验结果

（1）与最先进方法的在三个数据集上的比较

（2）消融实验和定量分析

SocialCircle支持Transformer、MSN、V2 -Net和E-V2 -Net，与原始模型相比，SocialCircle也能帮助它们的ADE增益高达4.92%，FDE增益高达8.00%。而且所有这些因素的组合对模型的促进最大，删除任何一个因素都可能导致性能下降，如下表3；SocialCircle可以帮助Transformer- SC在600次训练后的损失下降更快，平均比变压器低13.04%，如下图4。

（3）定性分析

可视化预测如下：

四、总结

本论文重点是在预测行人轨迹时对社交互动进行建模，就像海洋动物通过回声定位进行定位和交流一样。作者引入了一个简单的先验规则（即社交相互作用被认为是基于角度的）来构建基于角度的社会互动表示——SocialCircle，旨在学习三个元组件的变动会如何影响智能体的轨迹。并在多个数据集上的实验证明了它的竞争力，另外的玩具实验也证明了它在处理社交互动方面的有效性。

~oooooover~