1>关于Light-GCN所使用的数据集----Gowalla
数据内容包括:好友关系数据集和签到数据集(好友关系数据集未使用,以下只介绍签到数据集)

图 1
在签到数据集中,每个用户的每一次签到记录作为一条记录,签到的具体属性分列表示。每条签到记录包括用户ID(User-ID)、签到时间(Check-in Time)、签到地点的维度(Latitude)、签到地点的经度(Longitude)、以及每个地区的经纬度所唯一对应的地点ID(Location-ID)。其中,用户ID一一对应每个用户,经纬度精确到小数点第六位。
数据集包括了196586个用户通过签到方式在5977758个地点上共享了6442892条行为信息。该数据记录在图1中的 loc-gowalla_totalVheckins.txt.gz 中。
因为Light-GCN所使用的数据集与NGCF的数据集相同,NGCF对Gowalla做了相应的处理。为了保证数据集的质量,他们使用了10核心设置,即保留至少有十次交互的用户和项目。

图 2
如图2所示,原数据集中的id为 48348 的用户共有6条签到记录,少于所规定的10条,所以在处理后的数据集中已被剔除。(user-list 中查不到原始id为48348的用户)
2>Gowalla原始数据的预处理
目前只用到User-ID和Location-ID两项特征,只对这两项特征进行预处理。如上文所述,对于每一个用户,若其产生交互的项目(地点)不足10个,则剔除该用户。在此基础上,对剩下的用户和项目重新编排(对ID做规整,及连续化降低后续的处理开销),得到 user_list.txt 和 item_list.txt文件。随后根据比例对数据集进行随机划分,得到 train.txt和 text.txt 文件。如图3:

图 3
继原始数据剔除处理后,对User-ID和Location-ID 重新编排,数据对应情况如下图:

图 4
图4中原始数据用户343在user-list中重新编排为0,项目8975在item-list中重新编排为0,故在train中显示,U0 与 I0 有交互。

图 5
对于用户343交互过得项目9191,在item-list中重新编排为1215,但该项目id在train中未查到与用户343的交互信息,而是在随机分配到text中,如图5所示。
本文介绍了Light-GCN在Gowalla数据集上的使用情况,该数据集包含用户签到记录,每个记录包括用户ID、签到时间和地点ID等信息。为了保证数据质量,采用10核心设置,剔除了交互少于10次的用户。数据预处理阶段,只保留User-ID和Location-ID,对不足10个交互的用户进行剔除,并对ID进行重新编排,最终随机划分得到训练和测试数据集。
1389





