科学文献中的大数据基础设施:数据挖掘、文本挖掘与引文上下文分析
1. 研究概述
在研究中,我们使用了一个包含1445条引文的手动注释数据集。基于这些引文,我们整理了一个包含14个特征的特征文件,并使用多种分类器进行了实验。
1.1 机器学习模型表现
在传统机器学习模型中,随机森林(RF)在扩展数据集上表现最佳,实现了0.85的平均精度曲线下面积(AUCPR)和0.95的受试者工作特征曲线下面积(AUCROC)。随着数据量的增加,传统机器学习模型的性能也会更好。
1.2 特征重要性
通过实验评估特征的重要性,结果表明基于提示词列表的特征在将每条引文分类为重要和不重要的前六个特征中。同时,我们还回顾了研究人员在引文分类中使用的过去技术和方法。
2. 研究应用
我们的研究成果具有广泛的应用价值,具体如下:
- 信息聚类与推荐 :可用于对科学论文中的信息进行聚类,并为医疗/保健领域的利益相关者推荐给定主题所需的信息。
- 推动医疗大数据分析 :希望我们在引文上下文分析方面的工作能够为推进医疗保健领域的大数据分析做出贡献。
- 定性评估学术出版物 :该技术可用于定性评估日益增长的大型学术数据中的出版物。
- 改进全文摘要技术 :有助于改进基于引文的全文摘要技术。
3. 标注数据示例
以下是一些带有引文上下文的标注数据示例,展示了不同论文之间的引用关系以及引用句子和标签
超级会员免费看
订阅专栏 解锁全文
84

被折叠的 条评论
为什么被折叠?



