点击左上方蓝字关注我们
大家在生活中一定会遇到这种问题,同一个词放在不同的环境里,就会产生不同的意义。比如“前门”在公司指的是入口大门,在北京可能指的是紫禁城南边的地名。歧义问题在人们日常的沟通中或许并不显眼,但是一旦放到了计算机环境中,奇怪的问题就增加了。智能助手答非所问,语音识别各种乱码。当“呵呵”从开心变成了敷衍,“美女”从独特走向泛滥,这背后是词的意图日益扩大,数据量的不断增加,对NLP技术的挑战越来越直接。
那么这些问题要如何解决呢?如今常常采用的方式是在各自的语境里进行上下文联系完成计算机理解,来提升整体的准确率,即对于给定的文本,采用实体链指(Entity Linking,EL)这一NLP领域的基础任务,题将其中的实体与给定知识库中对应的实体进行关联。
但是在面向如搜索 Query、微博、对话内容、各类标题等中文短文本时,问题就更复杂了。因为传统的实体链指任务主要针对长文档,上下文信息能辅助实体歧义消解并完成链指。但在中文短文本情况下,口语化情况严重,内容歧义消除本就困难;短文本的上下文语境不够丰富,给上下文理解提出了更高的要求;再加上中文的语言特点本就以意蕴为先,实体链指技术在中文短文本面前就有了更多可以改进的空间。
为了解决面向短文本的实体链指难题,为更多专业的解决方案和技术人才搭建展现自己的舞台,飞桨面向短文本的实体链指大赛强势发布,本次大赛为参赛选手提供了基于百度真实业务场景的学界最大规模开放数据集。快来一探究竟吧!
面向短文本的实体链指大赛
带着10万奖金来了!
百度拥有全球最大的中文知识图谱,拥有数亿实体、千亿事实,具备丰富的知识标注与关联能力,构建了通用知识图谱、汉语语言知识图谱、关注点图谱、以及包含业务逻辑在内的行业知识图谱等多维度图谱。本次比赛使用了百度开源的,迄今为止学界最大规模的中文短文本开放数据集DuEL2.0,包含9万训练集、1万开发集、1万测评集。知识库实体个数达32.4万,SPO数量达282.6万。不仅如此,数据均来自百度真实业务场景。其中:
互联网网页标题(占25%)
UGC短视频标题(占25%)
搜索日志(占50%)
数据全部使用高质量人工标注,实体链指标注准确率及实体类型标注准确率超过95%,知识库实体重复率小于5%。
这么优秀的数据集,走过路过千万不要错过。
比赛福利
本次比赛,选手需要在在规定时间内须使用深度学习平台飞桨进行模型的设计、训练和预测,飞桨为本次比赛提供了10万元人民币的现金奖池:
不仅如此,在A榜阶段排名前30并超过基线成绩的团队可获得超级可爱的生肖熊。
为了助力选手冲榜,百度大脑AI Studio为参赛选手提供100小时Tesla V100算力卡,报名即可在数据下载页获得算力码申请地址。
10万奖池+免费算力+迄今为止业界最大的超高质量真实业务数据集,你还在等什么!目前,大赛的报名渠道已经开启,如果你也想在比赛中一展身手,赢取奖金获得荣誉,那就赶快点击阅读原文报名吧!