8、科学文献中的大数据基础设施:数据挖掘、文本挖掘与引文上下文分析

科学文献中的大数据基础设施:数据挖掘、文本挖掘与引文上下文分析

1. 研究概述

在研究中,我们使用了一个包含1445条引文的手动注释数据集。基于这些引文,我们整理了一个包含14个特征的特征文件,并使用多种分类器进行了实验。

1.1 机器学习模型表现

在传统机器学习模型中,随机森林(RF)在扩展数据集上表现最佳,实现了0.85的平均精度曲线下面积(AUCPR)和0.95的受试者工作特征曲线下面积(AUCROC)。随着数据量的增加,传统机器学习模型的性能也会更好。

1.2 特征重要性

通过实验评估特征的重要性,结果表明基于提示词列表的特征在将每条引文分类为重要和不重要的前六个特征中。同时,我们还回顾了研究人员在引文分类中使用的过去技术和方法。

2. 研究应用

我们的研究成果具有广泛的应用价值,具体如下:
- 信息聚类与推荐 :可用于对科学论文中的信息进行聚类,并为医疗/保健领域的利益相关者推荐给定主题所需的信息。
- 推动医疗大数据分析 :希望我们在引文上下文分析方面的工作能够为推进医疗保健领域的大数据分析做出贡献。
- 定性评估学术出版物 :该技术可用于定性评估日益增长的大型学术数据中的出版物。
- 改进全文摘要技术 :有助于改进基于引文的全文摘要技术。

3. 标注数据示例

以下是一些带有引文上下文的标注数据示例,展示了不同论文之间的引用关系以及引用句子和标签

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值