WikiWrite: Generating Wikipedia Articles Automatically笔记

最新推荐文章于 2022-08-04 11:21:25 发布

原创最新推荐文章于 2022-08-04 11:21:25 发布 · 318 阅读

CC 4.0 BY-SA版权

11 篇文章

订阅专栏

探讨使用段落向量模型和整数线性规划，从相似文章学习内容模板，生成维基百科缺失实体的非侵权文章。通过计算句子间的连贯性得分，确保生成文章的流畅性和信息保留。

1.document embeddings → 获得单词和段落的矢量表示 → 向量算相似度 →判别不同的文章(分类器)

2.两步的整数线性规划(ILP)模型 → summarize & rewrite

假设1：类别信息是已知的，文章通常属于多个类别，而这些类别往往不是同等重要的。

文章从多个类别总结 → 问题：

我们使用段落向量模型(Le and Mikolov, 2014)来获得红色链接实体的向量表示，该模型计算可变长度文本的连续分布向量表示。

我们利用词对**(名词和动词)在句子之间的转换概率来计算任意两个句子之间的连贯性得分**。

前人使用category，限制在一个category中只有几个重要的部分，导致错过了在stubs中附加相关的部分
- 与之前的工作相比，我们的方法不需要维基百科的categories信息。
最近的工作：single document extractive summarization.
- 本文：multi-document abstractive summarization

想实现的是，没有相应文章的维基百科实体生成一个不侵权的文章

类似的实体在Wikipedia的其他文章中也在类似的上下文中提到过。

例如，实体Sonia Bianchetti在英文维基百科中并没有相应的文章(截至2015年11月)，但是会在referee,judge等词的上下文出现。

因此，我们可以借鉴类似文章的结构来创建实体的文章。

paragraph vector distributed memory

作用：

直接用gensim包里的doc2vec

我们需要从web中检索与实体相关的具有信息的文本片段，并将它们分配到本文中适当的部分中
- 语义上相似的部分可能有不同的标题，所以作者用了repeated bisection clustering (RBR)保证每个聚类内部的相似度都在0.5以上
我们需要有效地总结和重写分配的内容
- 意译 →生成新句子：word-graph construction ， bigram

在这里插入图片描述

线性规划选句子
- $p_i$ 和 $arc_{i,j}$ 都是01变量，表示句子是否选中，以及i,j是否相邻
- 考虑了句子的质量：句子的权重 $w^{p_i}$ 就是由句子的语言质量LQ和、句子的重要性 $I^{p_i}$ 、平均向量的相似度计算出的
- 考虑了句子之间的连贯性： $coh_{i,j}$ 衡量句子i,j之间的连贯性
改写句子
- 使用的是trigram
- 又是一个线性规划，针对覆盖性、语言质量进行了限制