46、JRS’2012生物医学研究论文主题分类竞赛解读

JRS’2012生物医学研究论文主题分类竞赛解读

1. 竞赛任务

研究团队投入大量时间和精力,从PubMed Central开放获取子集中收集了包含20,000篇期刊文章的文档语料库。每个文档都由PubMed的生物医学专家用多个医学主题词表(MeSH)副标题进行标注,这些副标题可视为文本中讨论的不同上下文或一般主题。借助自动标记算法,将所有文档与最相关的MeSH术语(标题)关联起来。竞赛数据包含这些关联强度的信息,以数值表示,可直观地解释为衡量一个术语在给定文本中出现程度的粗糙隶属函数的值。

JRS’2012数据挖掘竞赛的参与者任务是,根据自动生成的与MeSH标题对应的标签的关联强度,设计能够准确预测专家分配的MeSH副标题(主题)的算法。每个文档可以用多个副标题标注,且数量不固定。为确保不熟悉生物医学领域,尤其是MeSH本体的参与者与领域专家有平等机会,数据中去除了标签名称和主题分类。这些名称、数据列之间的关系,以及将决策类标识符转换为MeSH副标题的字典,可应要求提供,用于赛后研究。

数据集以二维表格形式提供,作为两个制表符分隔值文件——训练集和测试集。每个文件的每一行代表一个文档,连续列中包含0到1000的整数,表示与相应MeSH术语的关联强度。此外,还有一个包含标签的文本文件,其连续行对应训练数据集中的条目。该文件的每一行是一个主题标识符(1到83的整数)列表,用逗号分隔,可视为期刊文章的广义分类。测试集没有此信息,参与者的任务是使用在训练数据上构建的模型进行预测。

值得注意的是,由于问题的性质,数据集具有高维度,列数大致对应MeSH本体的大小。数据集也很稀疏,因为标记算法通常只为特定文档分配一小部分MeSH术语。最后,大量数据列的非零值很少(甚至没有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值