在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。
在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。
点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。
这是 PaperDaily 的第 112 篇文章作者丨卢靖宇
学校丨西安电子科技大学硕士
研究方向丨自然语言处理
本期推荐的论文笔记来自 PaperWeekly 社区用户 @hawksilent。本文创造性地将 Bootstrapping 关系提取中的自动选种任务,以及远程监督关系提取中的降噪任务看成是根据不同的排序标准进行排序的问题,提出了多种兼具自动选种和数据降噪功能的策略。
文章的贡献主要有以下几点:
1. 创造性的将关系提取中的自动选种和数据降噪任务转换成排序问题;
2. 提出多种既可用于 Bootstrapping 关系提取自动选种,又能用于远程监督关系提取降噪的策略;
3. 在收集自 Wikipedia 和 ClueWeb 的数据集上,通过实验证实提出的算法的实用性和先进性。
引言
最近阅读了 Ranking-Based Automatic Seed Selection and Noise Reduction for Weakly Supervised Relation Extraction 这篇文章,该工作来自于 Nara Institute of Science and Technology,发表在 ACL 2018。
这篇文章主要对弱监督关系提取中两个相关的任务展开研究:
Bootstrapping 关系提取(Bootstrapping RE)的自动选种任务;
远程监督关系提取(Distantly Supervise RE)的降噪任务。
文章受到 Web 结构挖掘中最具有权威性、使用最广泛的 Hypertext-induced topic search(HITS)算法,以及 K-means、潜在语义分析(LSA)、非负矩阵分解(NMF)等聚类中心选择算法的启发,提出一种能够从现有资源中选择初始化种子、并降低远程标注数据噪声的算法。
实验证明,该算法的性能要好于上述两个任务的基线系统。下面是我对这篇文章的阅读笔记。