基于语义三元组的新闻事件建模与摘要提取
在新闻摘要提取领域,图模型能够促进从主句和从句中检索和融合重要的三元组,同时事实会沿着路径与其各个方面自然相连,因此找到最佳路径就能自动找到应包含在摘要中的最重要方面。不过,之前Li等人的方法在应用于新闻摘要提取时存在一些局限性。
1. 现有方法的局限性
- 事实融合问题 :事实融合会合并具有相似词类型的三元组,有时会导致错误结果。例如,“Trump”和“Obama”都属于“person”类型,但它们是不同的实体,包含它们的句子不应融合在一起。
- 长路径问题 :覆盖多个三元组的长路径不一定是最佳的,因为它们可能会连接不相关的事实。
- 主题聚类问题 :使用预定义的主题对事实进行聚类,对于新闻内容的动态性质来说不够灵活。
2. 主要贡献
为了解决上述问题,提出了以下改进方法:
1. 基于实体链接和谓词相似度的事实融合策略 :通过实体识别、名称归一化和共指消解进行实体链接,使用Stanford NLP和DBpedia Spotlight;谓词相似度使用WordNet::Similarity来确定。
2. 引入节点度对路径进行排序 :除了语法正确性和事实覆盖度,还利用节点度来对路径进行排序,从而找到包含重要事实的路径。
3. 动态分组的事实分类方法 :采用K - means聚类进行动态分组,使用在Goog
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



