社交图像的场所预测解决方案
1. 相关背景与问题提出
图像场所预测,也被称为图像地理标记,旨在从一组候选对象中识别图像所指的场所、地标或位置。以往大多数方法从图像中提取丰富的视觉特征,并利用这些特征训练浅层或深层模型来估计给定图像的场所。然而,这些方法大多忽略了社交图像内容的高度多样性,仅利用图像内容难以准确预测特定场所。
为了解决这一问题,我们提出了一种统一场所类别和特定场所推断的解决方案,该方案将图像内容的视觉信号与基于位置的社交网络(LBSN)签到历史的各种时间信号进行了融合。
2. 问题定义
2.1 历史签到序列
设 $S_u = {s_1^u, s_2^u, \cdots, s_{n_u}^u}$ 为用户 $u$ 的历史签到序列,其中 $n_u$ 表示用户 $u$ 的历史签到次数。如果用户在多个社交网络上有签到行为,我们可以将它们合并为 $S_u$。每个签到条目 $s_n^u$ 表示为 $s_n^u = (l_n^u, i_n^u, t_n^u)$,分别代表签到的位置、图像和时间。需要注意的是,$i_n^u$ 是 $s_n^u$ 的可选字段,因为并非所有签到都与图像相关。每个位置 $l_n^u$ 对应一个场所类别 $c_n^u$。
2.2 预测任务
我们的目标是在给定下一次签到 $s_{n_u + 1}^u$ 的签到图像 $i_{n_u + 1}^u$、时间戳 $t_{n_u + 1}^u$ 和用户的签到历史的情况下,预测下一次签到的特定场所 $l_{n_u + 1}^u$。从概率的角度来看,该任务可以通过推断用户 $u$ 在时间点 $t_{n_u + 1}^u$ 访问 $l_{