学术影响力衡量与科学映射数据分析
1. 累积密度函数与学术质量度量
累积密度函数 (I(c) = \int_{-1}^{c} p(x)dx) 在任意引用计数 (c) 水平上的值介于 0 和 1 之间。当考虑所有可能情况的概率时,该函数达到最大值 1。这种质量度量方式既直观又与学科无关。通过观察特定绩效水平的累积概率,能够回答有关量化科学家绩效的问题。例如,若一位数学家的绩效累积概率为 0.90,而一位分子科学家的绩效累积概率为 0.80,那么从学术出版物的角度来看,数学家的表现更优。
此外,对于一篇引用次数为 (c) 的文章,累积密度函数返回的值在 0 到 1 之间,该值可视为一种稀有性度量。引用频率越稀有,达到该频率就越困难,文章也就越优秀。
目前,基于引用的学术影响力指标的跨领域标准化已经产生了许多指标。然而,研究人员仍在不断完善标准化程序,以减少可能源于学科边界划分、参考出版年份和相关领域来估计预期引用水平等方面的各种偏差。研究人员已经确定了大量潜在因素,但我们还需要进一步了解这些因素影响的程度以及它们在多个粒度级别上的相互作用。大多数标准化仅关注少数几个因素,现有标准化在多大程度上能保留文章在各自群体中的相对位置顺序还有待研究。标准化应将不同类型的数据转换为 [0, 1] 范围内的数字。
2. 科学映射数据集介绍
这里使用包含 17,731 篇科学映射相关论文的数据集进行说明。该数据集是 2017 年一项科学映射系统综述的基础,其中 17,721 条记录成功加载到数据库中。数据集包含 14,794 篇文章(占比 83.48%)、1861 篇会议论文、1034 篇综述以及少量其他类型的文献,如书评、社论和书籍章节等。数据集可从相关
超级会员免费看
订阅专栏 解锁全文
1283

被折叠的 条评论
为什么被折叠?



