WikiWrite: Generating Wikipedia Articles Automatically笔记

探讨使用段落向量模型和整数线性规划,从相似文章学习内容模板,生成维基百科缺失实体的非侵权文章。通过计算句子间的连贯性得分,确保生成文章的流畅性和信息保留。

1.document embeddings → 获得单词和段落的矢量表示 → 向量算相似度 →判别不同的文章(分类器)

2.两步的整数线性规划(ILP)模型 → summarize & rewrite

一、导论

假设1:类别信息已知的,文章通常属于多个类别,而这些类别往往不是同等重要的。

文章从多个类别总结 → 问题:

  • 文章不够精练,某些情况下,分类不能提供太多信息
  • 侵犯版权,意味着实体上的内容不能直接复制到维基百科
  • 连贯性问题

我们使用段落向量模型(Le and Mikolov, 2014)来获得红色链接实体的向量表示,该模型计算可变长度文本的连续分布向量表示。

我们利用词对**(名词和动词)在句子之间的转换概率来计算任意两个句子之间的连贯性得分**。

二、相关工作

  • 前人使用category,限制在一个category中只有几个重要的部分,导致错过了在stubs中附加相关的部分

    • 与之前的工作相比,我们的方法不需要维基百科的categories信息。
  • 最近的工作:single document extractive summarization.

    • 本文:multi-document abstractive summarization

三、方法

想实现的是,没有相应文章的维基百科实体生成一个不侵权的文章

1.实体表示

类似的实体在Wikipedia的其他文章中也在类似的上下文中提到过。

例如,实体Sonia Bianchetti在英文维基百科中并没有相应的文章(截至2015年11月),但是会在referee,judge等词的上下文出现。

因此,我们可以借鉴类似文章的结构来创建实体的文章。

PV-DM

paragraph vector distributed memory

作用:

  • 在维基百科上识别类似的文章
  • 从web检索的新段落的向量表示的推理

直接用gensim包里的doc2vec

2.内容生成阶段

  • 我们需要从web中检索与实体相关的具有信息的文本片段,并将它们分配到本文中适当的部分中

    • 语义上相似的部分可能有不同的标题,所以作者用了repeated bisection clustering (RBR)保证每个聚类内部的相似度都在0.5以上
  • 我们需要有效地总结和重写分配的内容

    • 意译 →生成新句子:word-graph construction , bigram

在这里插入图片描述

  • 线性规划选句子

    • pip_ipiarci,jarc_{i,j}arci,j都是01变量,表示句子是否选中,以及i,j是否相邻
    • 考虑了句子的质量:句子的权重wpiw^{p_i}wpi就是由句子的语言质量LQ和、句子的重要性IpiI^{p_i}Ipi、平均向量的相似度计算出的
    • 考虑了句子之间的连贯性:cohi,jcoh_{i,j}cohi,j衡量句子i,j之间的连贯性
  • 改写句子

    • 使用的是trigram
    • 又是一个线性规划,针对覆盖性、语言质量进行了限制

四、实验结果

实验用2015年的维基语料,有50GB,480万文章,15500个红色链接

基准模型重建文章的时候,由于时间长,只选1000篇构建文章

WikiWrite在分类任务上的表现优于WikiKreator

有摘要器的系统保留更多的信息

五、亮点

  • 没有用类别信息,而是从相似的文章学习内容模板
  • 我们利用词对**(名词和动词)在句子之间的转换概率来计算任意两个句子之间的连贯性得分**,转移概率是从相似文章中相邻句子对中获得的,这个过程好像可以复现
  • gensim包里的doc2vec

六、疑问

red-linked articles →缺少的引用??

答:应该是没有被授权的引用链接

在这里插入图片描述

red-link真的很多吗?
stub是什么?
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值