ccks2020中文短文本实体链接任务测评论文--小米团队--第一名

本文解析了小米团队在CCKS 2020竞赛中的获奖论文,介绍了如何使用BERT预测指称项类型、构建NIL_type实体,并通过多因子融合消除短文本实体歧义。方法包括BERT分类指称项、抽取上下文相关和无关特征,以及MLP模型打分排序。

测评论文名:面向中文短文本的多因子融合实体链指研究
官网文档链接:http://sigkg.cn/ccks2020/?page_id=700
本笔记主要将测评论文中的主要内容提炼,方便后续借鉴,读者可在上述官方文档链接中找到文档学习

摘要

论文首先采用了预训练的BERT来对短文本中的指称项进行类别预测, 利用预测的类型构建一个NIL实体,和其他候选构成完备候选实体集,然后对每一个候选实体进行多方位的特征因子抽取,利用一个多层感知机将多个特征因子融合打分,最后根据每一个候选实体和文本的关联分数进行 排序,选择分数最高的候选实体作为实体消歧预测结果。

引言

传统的实体链指任务主要是针对长文档,主要利用词袋模型计算指称项所 在上下文文本与候选实体所在文本之间的文本相似度,进而用文本的相似度来 衡量实体间的相似度,长文档拥有丰富上下文信息能辅助实体的歧义消解并完 成链指。

中文短文本实体链指主要挑战:

  • 口语化严重,导致实体歧义消解困难
  • 短文本上下文语境不丰富,须对上下文语境进行精准理解
  • 相比于英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战

论文中技术路线:

  • 先采用预训练的BERT来对短文本中的实体进行类别预测,利用预测类型构建一个仅包含类型特征的实体称为NIL_type实体,和知识库中其他可以检索到的实体构成完备候选实体集,确保文本中的给定的指称项都能有一个正确的链接实体
  • 对每一个候选实体进行多方位的特征因子抽取,特征因子抽取包括上下文相关特征的抽取和上下文无关特征的抽取
    • 上下文相关特征包括文本上下文和候选实体描述的相似度计算,多个指称项之间的关联度计算等
    • 上下文无关特征包括实体的流行度、实体的类型等
  • 将上述特征因子利用一个多层感知机模型进行融合打分,预测每一个候选实体和文本的关联分数。最后对分数进行排序,选择分数最高的候选实体作为实体消歧预测结果<
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值