信息提取定制与蕴含图在文本分析中的应用
1. 实体工具评估
为了测试获取新实体集程序的有效性,研究人员从美国毒品执法管理局约 5000 篇网络新闻帖子中创建新的药物和执法人员实体类型,并测量其性能。具体步骤如下:
1. 数据提取与标注 :从语料库中提取术语,并手动生成药物名称和执法人员提及的两个术语列表。共提取 3703 个术语,确定了 119 个药物名称和 97 个执法人员提及作为“黄金标准”集。
2. 运行定制器模拟版本 :
- 为实体集扩展程序提供两个种子。对于药物集,提供“甲基苯丙胺”和“羟考酮”;对于执法人员集,提供“特工”和“执法人员”。
- 程序生成术语排名列表。
- 每次迭代检查前 N(本设置中 N = 20)个之前未检查过的新术语。
- 如果术语在黄金标准集中,将其作为正种子添加到扩展器中;否则,作为负种子添加。
- 用更新后的种子集继续扩展,在第 k(本设置中 k = 10)次迭代后停止。
通过测量主动学习过程每次迭代的召回率(找到的术语比例),结果表明,给定两个种子,主动学习程序可帮助用户快速定义新实体集。例如,对于药物集,经过 3 次迭代(即审查 3703 个术语中的 60 个),用户能够找到超过 30%的所有药物;对于执法人员集,最初 3 次迭代将覆盖超过 40%的执法人员。经过 10 次迭代审查 200 个术语后,用户能够构建覆盖超过 70%的药物或 80%的执法人员的实体集。
2. 定制工具:关系
2.1 语义关系与词汇化依赖路径
两个实体提及之间的语义关系通
超级会员免费看
订阅专栏 解锁全文
64

被折叠的 条评论
为什么被折叠?



