Coggle数据科学 | Kaggle赛题解析:识别数据引用与分类

本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。

原文链接:Kaggle赛题解析:识别数据引用与分类

  • 赛题名称:Make Data Count - Finding Data References

  • 赛题类型:自然语言处理、信息检索

  • 赛题任务:从科学论文的全文中提取所有被引用的研究数据,并根据上下文将其分类为初级引用(Primary)或次级引用(Secondary)。

https://www.kaggle.com/competitions/make-data-count-finding-data-references/

赛题背景

Make Data Count (MDC) 是一个全球性的、由社区驱动的倡议,旨在建立开放标准化的指标,用于评估和奖励研究数据的重用和影响力。通过倡导和基础设施项目,MDC 旨在将数据作为主要的研究成果加以认可,促进数据在不同数据社区中的共享和重用。通过突出和重视数据的贡献,可以推动更协作、透明和高效的科学实践,从而推动创新和进步。然而,目前科学数据的价值被严重低估,尽管它们是发现和创新的基础。

根据 Peters 等人(2016)的研究,大约 86% 的研究数据在当前的数据引用系统中仍然未被引用。此外,数据引用的识别难度较大,因为它们的引用方式多种多样。例如,作者可能在方法部分详细描述数据,或者在其他地方间接提及,或者在参考文献列表中提供正式引用。此外,作者在描述数据与论文之间的关系时,可能会使用不同的语言,例如提到数据是公开可用的(如“publicly available”)或者数据是从其他地方获取的(如“obtained from”)。

赛题任务

本次竞赛的目标是从科学文献的全文中识别出所有数据引用(对研究数据的引用),并标记引用的类型(初级或次级):

  • 初级引用:作为论文的一部分生成的原始或处理过的数据,专门为该研究而产生。

  • 次级引用:从现有记录或已发表的数据中派生或重用的原始或处理过的数据。

竞赛的最终目标是开发一个高性能的模型,能够持续运行在科学文献上,自动化地添加高质量且具有上下文的数据与论文之间的连接,并将其纳入 MDC 数据引用语料库(MDC Data Citation Corpus)。这将有助于建立开放科学数据的价值和影响力,促进数据的重用。

赛题时间轴

  • 开始日期:2025年6月11日

  • 参赛截止日期:2025年9月2日(参赛者必须在此日期之前接受竞赛规则)

  • 团队合并截止日期:2025年9月2日(参赛者可以在此日期之前加入或合并团队)

  • 最终提交截止日期:2025年9月9日

评价指标

竞赛采用的评估指标是 F1 分数(F1-Score),它通过精确率(precision)和召回率(recall)来衡量准确性。

其中,精确率是真正例(true positives)与所有预测为正的样本(真正例 + 假正例)的比率,召回率是真正例与所有实际为正的样本(真正例 + 假负例)的比率。F1 分数平衡了精确率和召回率,一个好的检索算法会同时最大化这两个指标。

参赛者需要从测试数据集中识别出数据引用,并形成唯一的元组(article_id, dataset_id, type)。如果一篇文章中包含多个相同 dataset_id 和类型的引用,则只需预测一次。没有数据引用的文章不应包含在提交文件中,否则会被视为假正例并受到惩罚。在挖掘研究论文全文时,DOI 可能会以完整格式或不完整格式出现,所有 DOI 都需要转换为完整格式(https://doi.org/[prefix]/[suffix])。提交文件的格式如下:

row_id,article_id,dataset_id,type
0,10.1002_cssc.202201821,<https://doi.org/10.5281/zenodo.7074790>,Primary
1,10.1002_esp.5090,CHEMBL1097,Secondary
...

赛题数据

在本次竞赛中,参赛者需要从科学论文中提取所有被引用的研究数据(通过其标识符)并根据上下文将其分类为初级引用或次级引用。数据集和论文都有唯一的持久标识符,主要有以下两种类型:

  1. 数字对象标识符(DOI):用于所有论文和部分数据集。DOI 的格式为 <https://doi.org/> [prefix]/[suffix],例如:

    • https://doi.org/10.1371/journal.pone.0303785

    • https://doi.org/10.5061/dryad.r6nq870

  2. 存取编号(Accession IDs):用于部分数据集,其形式因数据存储库而异。例如:

    • “GSE12345”(Gene Expression Omnibus 数据集)

    • “PDB 1Y2T”(Protein Data Bank 数据集)

    • “E-MEXP-568”(ArrayExpress 数据集)

数据文件如下:

  • 训练集(train/{PDF,XML}):包含训练用的文章,格式为 PDF 和 XML。需要注意的是,并非所有 PDF 文章都有对应的 XML 文件(大约 75% 有)。

  • 测试集(test/{PDF,XML}):包含测试用的文章,格式为 PDF 和 XML。重新运行的测试数据集大约有 2,600 篇文章。

  • 训练标签文件(train_labels.csv):包含训练文章的标签,其中:

    • Primary(初级):作为论文的一部分生成的原始或处理过的数据,专门为该研究而产生。

    • Secondary(次级):从现有记录或已发表的数据中派生或重用的原始或处理过的数据。

    • article_id:研究论文的 DOI,位于论文全文中。

    • dataset_id:论文中引用的数据集标识符及其引用类型。

    • type:引用类型,分为:

  • 样本提交文件(sample_submission.csv):正确格式的样本提交文件。

科学论文的全文是从 Europe PMC 开放获取子集 下载的 PDF 和 XML 格式。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值