Geo-Tokenizer:高效的位置嵌入模型实验解析
1. 研究问题概述
在位置嵌入模型的研究中,存在几个关键问题需要探索:
- 不同组件如何影响下游任务的性能?
- 预训练模型中层次结构的级别会产生怎样的影响?
- 以自监督方式对位置嵌入模型进行预训练,对下游任务的有效性如何?
2. 数据集介绍
2.1 Mobile-T 数据集
- 这是由主要蜂窝网络运营商的基站收集的一组用户轨迹数据。
- 100m 尺度下的位置词汇表大小为 79812,过大不利于训练位置嵌入。
- 使用 Geo - tokenizer 后,100km、1km 和 100m 尺度下的位置词汇表大小分别为 24、6616 和 100,总和为 6740,小于原始大小。
- 该数据集包含轨迹最后一个位置的土地使用信息,与轨迹目的相关,有 15 种独特的土地使用类型。
2.2 Geo - Life 数据集
- 这是一个公开的 GPS 轨迹数据集,由微软亚洲研究院在五年内收集了 182 个用户的数据。
- 轨迹以 GPS 坐标表示的位置序列描述,位置记录也转换为 100m 尺度的网格。
- 具有三个层次结构的不同分解位置数量(8476)小于原始位置数量(50003)。
- 该数据集包含五种独特的轨迹交通模式。
数据集的具体统计信息如下表所示:
| 数据集 | 数据类型 | 用户数量 | 原始位置数量 (100m) | 标记
超级会员免费看
订阅专栏 解锁全文
1316

被折叠的 条评论
为什么被折叠?



