本文是LLM系列文章,针对《2D-TPE: Two-Dimensional Positional Encoding Enhances Table Understanding for Large Language Models》的翻译。
摘要
表格在各种域中无处不在,用于简洁地表示结构化信息。使大型语言模型 (LLM) 能够对表格数据进行推理代表了一个积极探索的方向。但是,由于典型的 LLM 仅支持一维 (1D) 输入,因此现有方法通常会将二维 (2D) 表结构扁平化为一系列标记,这可能会严重破坏空间关系并导致不可避免地丢失重要的上下文信息。在本文中,我们首先通过两个精心设计的代理任务,实证证明了这种扁平化操作对 LLM 在捕获表的空间信息方面的性能的不利影响。随后,我们引入了一种简单而有效的位置编码方法,称为 “2D-TPE” (二维表格位置编码),以应对这一挑战。2D-TPE 使每个注意力头能够在上下文中动态选择标记的排列顺序来处理它们,其中每个排列代表表的不同遍历模式,例如列遍历或行遍历。2D-TPE 有效地降低了丢失基本空间信息的风险,同时保持了计算效率,从而更好地保留了表结构。跨五个基准的广泛实验表明,2D-TPE 的性能优于强基线,强调了保存表格结构的重要性,以便准确理解表格。综合分析进一步揭示了 2D-TPE 对大型表的可扩展性比基线要好得多。