Commonsense Knowledge Aware Conversation Generation with Graph Attention
1 出发点
现有的具有外部知识的模型,大多采用非结构化、开放域知识或者结构化、小规模、特定域的知识,这就导致模型存在依赖高质量的非结构化知识的问题或者在开放域的对话场景下表现不佳的问题。而且,大多数模型通常孤立地利用知识三元组(实体),而不是在知识图中将知识三元组作为一个整体来对待。
2 贡献
提出了两种图注意力机制:(1)、静态图注意力机制,编码被检索出来的知识图用来增强输入句子的语义信息,这样可以更好的理解输入。(2)、动态图注意力机制,读取知识图和其中的知识三元组,然后利用其中的信息生成更好的回答。
3 任务定义
给定对话历史X=x1...xnX=x_{1}...x{n}X=x1...xn和知识图的集合G={
g1...gNG}G=\{g_{1}...g_{N_{G}}\}G={
g1...gNG}的条件下,生成一个目标回答Y=y1...ymY=y_{1}...y_{m}Y=y1...ym。每个知识图由一系列的三元组组成gi={
τ1...τNgi}g_{i}=\{\tau_{1}...\tau_{N_{gi}}\}gi={
τ1...τNgi},每个知识三元组τ=(h,r,t)\tau=(h,r,t)τ=(h,r,t),分别代表:头实体、关系和尾实体。note:GGG并不是整个知识库中的所有图的集合,只是其中的一部分,这一部分是以XXX中的单词为索引检索得到的。
作者在模型中使用TransE[1]来表示实体和关系。并且使用MLP使得模型可以使用实体和关系的TransE表示,如公式1所示,k\pmb{k}kkk为一个知识三元组的表示:
k=(h,r,t)=MLP(TransE(h,r,t))\pmb{k}=(\pmb{h},\pmb{r},\pmb{t})=MLP(TransE(h,r,t))kkk=(h