Quantifying Success in Science: An Overview
摘要
量化科学上的成功在指导资金分配、招聘决策和奖励方面起着关键作用。最近,在量化科学成就方面取得了大量进展。缺乏详细的分析和总结仍然是一个实际问题。文献报道了影响学术影响力的因素以及旨在克服这一关键弱点的评价方法和指标。本文着重对学术影响力评价指标的研究现状进行了分类和评述,包括论文影响力、学者影响力和期刊影响力。此外,本文还总结了现有评价方法和指标存在的问题,探讨了存在的问题和挑战,并提出了可能的解决方案,包括合作影响模式、统一的评价标准、内隐成功因素挖掘、动态学术网络嵌入、学术影响膨胀等。这篇论文将有助于研究者对科学成功的量化有更广泛的理解,并确定一些潜在的研究方向。
索引项
科学成就,学术影响,评价指标。
1.简介
期刊内容十分丰富,本文主要介绍了定量化科学上的成功来自这三个方面。一般来说科学成就是指科学家在其科研成果中被引用的次数,以此作为评价指标,衡量其学术生涯。量化科学上的成功源于它的容易获得性。论文的可见度[12]、[13]和科学计量学是影响文献计量学和论文成功的重要因素。一个有影响力的出版物或学者总是在论文的年龄[14]。一种常用的判断成功与否的方法,给后人开展研究带来了很大的帮助。一篇学术论文的评价指标就是要用什么适合测量论文的冲击力。
在量化论文影响力的同时,学者影响力也受到诸多因素的影响。提出了许多衡量学者影响力的方法和指标,如h指数[20]、g指数[21]、hg指数[22]。这些指数对一些年轻的研究人员来说是不公平的,因为学者的出版物的质量和数量与他们的学术年龄有关。基于网络的方法可以在一定程度上避免这种情况。
评价期刊影响力是量化科学成就的重要组成部分。许多基于网络的评价方法和指标被用来量化论文和作者的影响,也可以用来评价期刊[23]-[26]。这些方法基于PageRank、HITS,或者考虑期刊在期刊引文网络中的结构位置。此外,期刊引文报告(JCR)在期刊排名中非常流行。
尽管现有的研究提供了一个工具来量化科学上的成功,但它仍然有一些局限性。每一个量化科学影响的指标都有其不足之处。尤其是在量化科研成果时,最具挑战性的问题之一来自于学术大数据的异质性和动态性。目前,在大多数量化科学成功的方法中,内隐特征和内隐关系引起了研究者的关注[27]。
本文综述了近年来在量化科学成就方面的进展,并对过去的相关工作进行了补充:Wildgaard等人[28]对作者影响评价进行了综述。这篇综述的一个局限性是它没有考虑论文和期刊的影响评价研究。Bai等人[9]回顾了有关论文影响评估的文献。本文概述了关键技术和论文影响度量。这项工作的局限性在于作者没有考虑作者和期刊的影响评价。另外,对影响学术影响力的因素也没有进行分析。为此,本文详细介绍了论文、作者和期刊影响评价的进展。
图1显示了量化科学成功的框架。科学成功的量化包括以下几个部分:数据采集、数据预处理、关系分析、评价方法和评价指标。一些公共可访问的数据集用于量化科学领域的成功,包括美国物理学会(APS)[1]、数字书目与图书馆项目(DBLP)[2]和微软学术图表(MAG)[3]。定量科学成功研究中的数据预处理是非常重要的,因为它关系到研究的准确性。同质和异质学术网络用于研究学术关系,如引文关系、合著者关系和论文期刊关系。斯皮尔曼的秩相关系数、贴现累积增益和RI可作为量化科学成功的评价指标[29]、[30]。特别是,异构的学术网络结构增加了学术网络分析的挑战。
为了检索量化科学成就的论文,我们在Google Scholar的基础上,输入科学成就、论文影响力、学者影响力、期刊影响力等搜索词,首先搜索最近在顶级期刊和顶级会议上发表的相关论文,然后查找其参考文献,并引用这些论文来获得更多的相关论文。对论文进行逐级搜索,然后从论文影响、学者影响和期刊影响三个方面进行筛选和分类,保留有代表性的相关论文。在上述工作的基础上,我们对这些论文的发表年份进行了标注,并对这些论文进行了年复一年的阅读,从影响学术影响力的特征、评价方法和指标等方面进行了分析和总结。例如,根据评价论文影响的这些特征,我们对这些特征进行了分类,包括参考文献、参考文献、精选特征、统计特征、网络特征、显性特征、隐性特征和评价论文影响。通过对这些评估方法的分析和总结,我们发现了存在的问题和挑战,并提供了可能的解决方案。
本次调查的其余部分组织如下。在第二节中,我们讨论了论文影响的评估。第三节介绍了作者影响力的评价。第四节讨论了期刊影响的评估。第五节将讨论尚未解决的问题。最后,我们在第六节总结了本次调查。
2.文章影响评估
在这一部分中,我们将详细介绍论文影响力的评价方法和指标。此外,我们还将讨论现有方法和指标的演变,指出它们的优缺点。首先,我们从论文影响力的评价入手,因为许多学者和期刊的评价方法和指标都是基于对论文的评价。因此,能否准确量化论文的质量具有重要意义。虽然论文的价值主要取决于其内容,但对其内容的评价容易受到主观因素的影响,评价效率不能满足学术性投标数据的要求。这一现象促使研究者提出一些准确、高效的自动评价方法。一个可能的解决方案是构建一个多维度量,其中需要探讨引用的重要性、作者的社会关系、早期citers的影响与学术论文影响之间的关系以及引用膨胀。
2.1 影响论文影响力的因素
图1:科学成功的量化框架 。
表1显示了用于评估论文影响的选定特征的示例,包括参考、选定特征、统计特征、网络特征、显式特征、隐式特征和评估论文影响。
表1:用于评估论文影响的选定特征的示例 。
工具书类 | 选定的功能 | 统计特征 | 网络功能 | 显式特征 | 隐式特征 | 评估论文影响 |
---|---|---|---|---|---|---|
[14] | 论文的引用率,时间 | 对 | 不 | 对 | 不 | 论文在给定时间的引用率 |
[27] | 相对引用权重 | 对 | 不 | 不 | 对 | 应用亲属关系引用权重高阶量子PageRank算法 |
[30] | 合作次数、合作时间跨度、引用次数、引用时间跨度 | 对 | 不 | 对 | 不 | 削弱利益冲突在引文网络中 |
[31] | 引用次数 | 对 | 不 | 对 | 不 | 使用引文 |
[32] | 引文,作者,期刊/会议和出版时间信息 | 不 | 对 | 对 | 对 | 集成选定的功能PageRank和点击率算法 |
[33] | 偏好依恋,衰老,健康 | 对 | 不 | 不 | 对 | 确定三个基本原则机制评估长期影响 |
[34] | 论文的重要性 | 不 | 对 | 对 | 不 | 应用Google-PageRank算法获取相对所有出版物的重要性 |
[35] | 引文相关性和作者贡献 | 不 | 对 | 对 | 不 | 使用选定的与权重相关的功能引文网络及其应用作者网络评价论文影响力 |
[36] | Altmetrics | 对 | 不 | 对 | 不 | 监控引文,博客,推特,下载研究文章中的统计数据和属性 |
[37] | 论文的威望、作者的威望、时间 | 对 | 对 | 不 | 对 | 利用引文网络作者网络与出版预测未来引文的文章时间 |
[38] | 时间加权引文计数,引文宽度,引文深度 | 对 | 不 | 不 | 对 | 利用熵权对三个指标进行加权 |
很长一段时间以来,引文数量一直被用作评估论文影响力的指标[31]。由于引文的数量相对容易获得,因此经常被操纵,如自引、互引和朋友引。虽然一些学者可以引用他们的论文,因为他们的研究对象可以有几个阶段输出,前者的结果可以是后者的基础。但如果自引只是为了增加被引次数,就会误导学术评价,给评价体系带来不公平因素。对