8、科学文献中的大数据基础设施：数据挖掘、文本挖掘与引文上下文分析

最新推荐文章于 2025-12-12 23:56:18 发布

Brown

最新推荐文章于 2025-12-12 23:56:18 发布

阅读量57

点赞数

CC 4.0 BY-SA版权

分类专栏： AI与大数据重塑智慧医疗文章标签：大数据基础设施数据挖掘文本挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/brown/article/details/152067878

AI与大数据重塑智慧医疗专栏收录该内容

33 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

科学文献中的大数据基础设施：数据挖掘、文本挖掘与引文上下文分析

1. 研究概述

在研究中，我们使用了一个包含1445条引文的手动注释数据集。基于这些引文，我们整理了一个包含14个特征的特征文件，并使用多种分类器进行了实验。

1.1 机器学习模型表现

在传统机器学习模型中，随机森林（RF）在扩展数据集上表现最佳，实现了0.85的平均精度曲线下面积（AUCPR）和0.95的受试者工作特征曲线下面积（AUCROC）。随着数据量的增加，传统机器学习模型的性能也会更好。

1.2 特征重要性

通过实验评估特征的重要性，结果表明基于提示词列表的特征在将每条引文分类为重要和不重要的前六个特征中。同时，我们还回顾了研究人员在引文分类中使用的过去技术和方法。

2. 研究应用

我们的研究成果具有广泛的应用价值，具体如下：
- 信息聚类与推荐 ：可用于对科学论文中的信息进行聚类，并为医疗/保健领域的利益相关者推荐给定主题所需的信息。
- 推动医疗大数据分析 ：希望我们在引文上下文分析方面的工作能够为推进医疗保健领域的大数据分析做出贡献。
- 定性评估学术出版物 ：该技术可用于定性评估日益增长的大型学术数据中的出版物。
- 改进全文摘要技术 ：有助于改进基于引文的全文摘要技术。

3. 标注数据示例

以下是一些带有引文上下文的标注数据示例，展示了不同论文之间的引用关系以及引用句子和标签

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。