基于常识知识图的多跳推理语言生成
-
- 1 Abstract & Introduction
- 2 Related Work
- 3 Methodology
- 4 Experiments
-
- 4.1 Datasets and Metrics
- 4.2 Extracting Sub-Graphs as Knowledge Grounding(提取子图作为知识基础)
- 4.3 Implementation Details
- 4.4 Compared Baselines
- 4.5 Automatic Evaluation
- 4.6 Human Evaluation
- 4.7 Ablation Study(消融研究)
- 4.8 Impact of the Size of Training Data(培训数据大小的影响)
- 4.9 Effectiveness of Dynamic Multi-Hop Reasoning(动态多跳推理的有效性)
- 5 Conclusion
1 Abstract & Introduction
本文是 结合常识知识 的文本生成领域的研究。利用知识图谱的结构和语义信息可促进常识性文本生成。在本文中,作者提出了使用 多跳推理流程(GRF) 进行生成的方法,该方法可以在从外部常识知识图谱中提取的多关系路径上启用带有动态多跳推理的预训练模型。实验结果表明在需要推理常识性知识的三个文本生成任务上:故事结尾生成(Mostafazadeh et al., 2016)、溯因自然语言生成(Bhagavatula et al., 2020)和意义生成的解释生成(Wang et al., 2019),本文提出的模型优于现有基准模型。同时,通过模型推断出的推理路径为文本生成提供了可解释性。

2 Related Work
2.1 Commonsense-Aware Neural Text Generation(常识感知神经文本生成)
2.2 Multi-Hop Reasoning on Graph Structure(图结构的多跳推理)
3 Methodology
3.1 Problem Formulation
关注文本生成任务,其中推理的外部常识知识是必需的。不失一般性,输入源 是一个文本序列x = (x1, x2,···xN),可能由几个句子组成。输出目标 是另一个文本序列y = (y1, y2,···,yM)。为便于推理过程,借助于外部常识知识图G = (V, E) ,其中V表示概念集 ,E表示概念之间的关系。
提取一个子图G = (V, E) 和给定的输入文本 V ⊂ V \mathrm V \subset \mathcal{V} V⊂V和 E ⊂ E E \subset \mathcal{E} E⊂E。
子图由相互连接的从从输入文本中开始的源概念Cx提取的H-hop路径。我们只考虑1-gram表面文本的概念。然后制定任务生成最佳假设yˆ以下哪一个条件概率最大化:
y ^ = argmax y P ( y ∣ x , G ) \hat{\boldsymbol{y}}=\operatorname{argmax}_{\boldsymbol{y}} P(\boldsymbol{y} \mid \boldsymbol{x}, G) y^=argmaxyP(y∣x,G)
3.2 Generation with Multi-Hop Reasoning Flow(多跳推理流程生成)
3.2.1 Static Multi-Relational Graph Encoding(静态多关系图编码)
图神经网络(GNN)框架,如图卷积网络(GCN) (Kipf和Welling, 2017)和graph attention network(GAT) (Velickovic et al., 2018)的研究表明,通过聚合来自本地邻居的节点信息,可以有效地编码图结构数据。
使用非参数合成操作 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅)将节点嵌入和关系嵌入结合起来。
给定输入图G = (V,E)和一个GCN的LG层,对于每个节点 v ∈ V v \in V v∈V,我们通过聚合其局部邻居 N ( v ) \mathcal{N}(v) N(v)的信息来更新在l + 1层嵌入的节点,这些邻居包括对节点u和连接关系r。
o v l = 1 ∣ N ( v ) ∣ ∑ ( u , r ) ∈ N ( v ) W N l ϕ ( h u l , h r l ) h v l + 1 = ReLU ( o v l + W S l h v l ) \begin{aligned} \boldsymbol{o}_{v}^{l} &=\frac{1}{|\mathcal{N}(v)|} \sum_{(u, r) \in \mathcal{N}(v)} \mathbf{W}_{N}^{l} \phi\left(\boldsymbol{h}_{u}^{l}, \boldsymbol{h}_{r}^{l}\right) \\ \boldsymbol{h}_{v}^{l+1} &=\operatorname{ReLU}\left(\boldsymbol{o}_{v}^{l}+\mathbf{W}_{S}^{l} \boldsymbol{h}_{v}^{l}\right) \end{aligned} ovlhvl+1=∣N(v)∣1(u,r)∈N(v)∑WNlϕ(hul,hrl)=ReLU(ovl+WSlhvl)
其中 h v 0 {h}_{v}^{0} hv0通过查找单词内嵌初始化, h r 0 {h}_{r}^{0} hr

最低0.47元/天 解锁文章
528

被折叠的 条评论
为什么被折叠?



