学习文本之间的潜在联系
一、导论
提到了wikisum,尽管wikisum向抽象多文档摘要迈出了重要的第一步,但是:
-
它仍然认为多个输入文档是连接的平面序列,不知道文档之间的层次结构和可能存在的关系。
-
选择搜索结果前10个,每个结果可能有重叠,用不同的方式表达同样的内容
-
作者强调文档间的图关系(PageRank?)
-
作者貌似要替换掉文档间的注意力机制计算
-
replacing inter-document attention
with a graph-matrix computed based on the basis of lexical similarity or discourse relations
-
-
二、相关工作
end2end模型的难点:训练数据难获取。wiki引用的文档太长了。
提取操作
- 基于单词与tf-idf权值的余弦相似度
- 基于话语关系
- 基于PageRank算法的几种变体
- 基于句子嵌入和图卷积网络
抽象摘要操作
跟单文档不一样,多文档处理有如下方案:
- model transfer (Zhang et al., 2018; Lebanoff and Liu, 2018)
- 在单文档摘要数据上预先训练一个序列到序列模型,并在DUC(多文档)基准测试上进行微调
- 无监督模型(靠重建句子等)
作者的创新
与wikisum的方法不同的是,我们使用了一个基于学习的排序器,我们的抽象模型可以分层地编码输入文档,具有学习跨文档的潜在关系的能力,并额外地将以众所周知的图表示形式编码的信息合并在一起。
三、模型
任务描述类似于wikisum
作者关注在encoder部分
段落排序
- 用LSTM+embedding对标题和段落进行建模
- 最大池化操作,获得固定长度表示
- 最后,为了估计是否应该选择一个段落,我们使用了一个线性变换和一个sigmoid型函数
段落encoding
这部分其实是在Transformer里面常见的一层,用来获取位置信息,参考解释
w i j w_{ij} wij

探讨了多文档摘要领域的最新进展,特别是图关系在文本摘要中的应用。文章提出了一种新的模型,能够学习文档间的潜在联系,通过图表示来增强摘要的质量。该方法在实验中表现出优越的性能,特别是在保留关键信息、忠实度、流畅性和简洁性方面。
最低0.47元/天 解锁文章
204

被折叠的 条评论
为什么被折叠?



