高效处理大量位置词汇的上下文位置嵌入模型研究
1. 消融研究
1.1 组件研究(RQ2)
为了研究预训练位置嵌入模型各组件的有效性,设计了以下三种变体模型:
- 基线模型(Baseline) :使用原始的Transformer解码器,基于ALM目标进行预训练,不包含Geo - tokenizer嵌入层,是一个简单的自回归预训练模型。
- +Geo - tokenizer(GT)模型 :用Geo - tokenizer嵌入层替换基线模型中的嵌入层,该嵌入层将每个位置记录分解为三个层次组件(100 km、1 km、100 m),预训练模型的目标是Transformer中提出的基本ALM,三个层次的ALM目标相互独立。
- +Geo - tokenizer(GT)+HALM模型 :在基线模型上融合Geo - tokenizer,并采用HALM目标,这是本文提出的模型。
在下一步位置预测任务中,对这三种变体模型与预训练位置嵌入模型进行了比较。性能通过对两个下游模型(FFN和LSTM)的结果取平均值来计算。与基线模型相比,带有Geo - tokenizer嵌入层的模型在两个数据集上都表现出更高的性能。此外,结合了HALM目标和Geo - tokenizer嵌入层的模型优于其他变体,这意味着HALM解决了Geo - tokenizer嵌入层将位置分解为多个层次所导致的学习不平衡问题。
在分类任务中,对这三种变体模型也进行了比较。在土地使用和交通方式分类任务中,Geo - tokenizer嵌入层和HALM都能比基线模型提高预测
超级会员免费看
订阅专栏 解锁全文
3723

被折叠的 条评论
为什么被折叠?



