论文:X-SQL: reinforce schema representation with context
⭐⭐⭐⭐
Microsoft, arXiv:1908.08113
X-SQL 与 SQLova 类似,使用 BERT style 的 PLM 来获得 representation,只是融合 NL question 和 table schema 的信息的方式不太一样,也就是在利用 BERT-style 得到的 representation 后进一步的加工方式不一样。
X-SQL 先由 BERT-style PLM 生成 question 和 schema 的 representation,然后对 schema representation 做上下文信息的进一步加强,再交由 6 个 sub-task 分别构建出 SQL 的一部分,最终得到完整的 SQL。
一、X-SQL
整个架构包含三层:sequence encoder、context enhancing schema encoder 和 output layer。
1.1 Sequence Encoder:得到 PLM 的 representation
将 question 和 table headers 拼装成下面的形式(与 SQLova 的类似):
- 有一个特殊的空 column 被附加到每个 table schema 最后,也就是实际最后一个 column 后面会在加一个
[EMPTY]
- 将
[CLS]
重命名为[CTX]
,用来强调这里是捕获上下文信息,而非用于下游任务的 representation - SQLova 中的 segment embeddings 被替换为 type embeddings,这是我们为四种 types 学习的 embeddings:question、categorial column、numerical column 和 special empty column
另外,这里的 PLM 不是使用 BERT-Large 初始化的,而是使用 MT-DNN 初始化的,它与 BERT 架构相同,只是在多个 GLUE 任务上做过训练,从而能够得到更好的用于下游任务的 representation。
经过这一层,我们为 question 和 table schema 的每个 token 都利用 BERT-style PLM 生成一个 hidden state。
1.2 Context Enhanced Schema Encoder:加强 schema representation
在上一层 seq encoder 中,我们为 question 和 table headers 的每个 token 都得到一个 hidden state vector,在这一层,我们的 context enchanced schema encoder 通过用 h [ C T X ] h_{[CTX]} h[CTX] 来加强前面 encoder 的输出,从而得到每个 column 的一个新的 representation h C i h_{C_i} hCi&