28、Geo-Tokenizer：高效的位置嵌入模型实验解析

最新推荐文章于 2025-12-19 12:18:18 发布

http9protocoller

最新推荐文章于 2025-12-19 12:18:18 发布

阅读量83

点赞数

CC 4.0 BY-SA版权

分类专栏： ECML PKDD 2023：机器学习与数据科学前沿文章标签： Geo-Tokenizer 位置嵌入模型下一位置预测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/http9protocoller/article/details/149382333

ECML PKDD 2023：机器学习与数据科学前沿专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Geo-Tokenizer：高效的位置嵌入模型实验解析

1. 研究问题概述

在位置嵌入模型的研究中，存在几个关键问题需要探索：
- 不同组件如何影响下游任务的性能？
- 预训练模型中层次结构的级别会产生怎样的影响？
- 以自监督方式对位置嵌入模型进行预训练，对下游任务的有效性如何？

2. 数据集介绍

2.1 Mobile-T 数据集

这是由主要蜂窝网络运营商的基站收集的一组用户轨迹数据。
100m 尺度下的位置词汇表大小为 79812，过大不利于训练位置嵌入。
使用 Geo - tokenizer 后，100km、1km 和 100m 尺度下的位置词汇表大小分别为 24、6616 和 100，总和为 6740，小于原始大小。
该数据集包含轨迹最后一个位置的土地使用信息，与轨迹目的相关，有 15 种独特的土地使用类型。

2.2 Geo - Life 数据集

这是一个公开的 GPS 轨迹数据集，由微软亚洲研究院在五年内收集了 182 个用户的数据。
轨迹以 GPS 坐标表示的位置序列描述，位置记录也转换为 100m 尺度的网格。
具有三个层次结构的不同分解位置数量（8476）小于原始位置数量（50003）。
该数据集包含五种独特的轨迹交通模式。

数据集的具体统计信息如下表所示：
| 数据集 | 数据类型 | 用户数量 | 原始位置数量 (100m) | 标记

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。