28、Geo-Tokenizer:高效的位置嵌入模型实验解析

Geo-Tokenizer:高效的位置嵌入模型实验解析

1. 研究问题概述

在位置嵌入模型的研究中,存在几个关键问题需要探索:
- 不同组件如何影响下游任务的性能?
- 预训练模型中层次结构的级别会产生怎样的影响?
- 以自监督方式对位置嵌入模型进行预训练,对下游任务的有效性如何?

2. 数据集介绍

2.1 Mobile-T 数据集

  • 这是由主要蜂窝网络运营商的基站收集的一组用户轨迹数据。
  • 100m 尺度下的位置词汇表大小为 79812,过大不利于训练位置嵌入。
  • 使用 Geo - tokenizer 后,100km、1km 和 100m 尺度下的位置词汇表大小分别为 24、6616 和 100,总和为 6740,小于原始大小。
  • 该数据集包含轨迹最后一个位置的土地使用信息,与轨迹目的相关,有 15 种独特的土地使用类型。

2.2 Geo - Life 数据集

  • 这是一个公开的 GPS 轨迹数据集,由微软亚洲研究院在五年内收集了 182 个用户的数据。
  • 轨迹以 GPS 坐标表示的位置序列描述,位置记录也转换为 100m 尺度的网格。
  • 具有三个层次结构的不同分解位置数量(8476)小于原始位置数量(50003)。
  • 该数据集包含五种独特的轨迹交通模式。

数据集的具体统计信息如下表所示:
| 数据集 | 数据类型 | 用户数量 | 原始位置数量 (100m) | 标记

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值