最近准备实习,所以把之前的项目拿出来回顾一下,用csdn做一下记录和梳理,方便以后查看,一起交流讨论。
完整项目代码已经上传github
项目介绍:基于深度学习的学者影响力预测
项目概述:
学术网络影响力评估的主要研究内容是,基于学术网络中作者、文献、期刊、机构等信息,对学术网络中重要的组成因素(如作者、文献等)进行评估。通过研究分析,本项目主要基于学者所发表的文献的相关信息及其在社交网络中的属性等因素来预测学者在学术领域的影响力。
当前的学者影响力评估方法归为两类:基于统计的评价方法(如h-index)和基于学术网络结构的评价方法(如PageRank )。
基于统计的方法考虑的是文章的数量、文章的被引用次数等信息,如作者发表文章的数量( Publication )、作者被引用的次数(Citation)、作者的合作作者数(Co-authors )和h-index等。而基于学术网络结构的方法,则是基于整个学术网络的网络结构(如作者之间的合作网络、作者之间的引用网络)对作者进行评价,如基于作者合作网络的PageRank(PR_AC)算法和基于作者的引用网络的PageRank算法(PR_CO)。
我们首先复原论文Future impact: Predicting scientific success实验,对比R^2值,p-value等评价发现拟合地最好方程是岭回归,对学者h-index增长影响最显著的特征是“论文发量”,“2010年的h-index”。
工作介绍:
数据收集(爬虫)
相当于是一个爬虫的项目实践吧,爬虫基础可见我的另一篇博客爬虫(python)
我负责的内容是从dplp(http://dblp.uni-trier.de/db/journals/neco/)中爬取期刊中所有文章和作者信息,然后从Scopus(https://www.scopus.com/search/form.uri?display=basic)中爬取文章的索引信息,最后构建学术引用网络。
dplp(DataBase systems and Logic Programming)是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。按年代列出了作者的科研成果。包括国际期刊和会议等公开发表的论文。DBLP没有提供对中文文献的收录和检索功能,国内的权威期刊及重要会议的论文缺乏一个类似的集成检索系统。DBLP所收录的期刊和会议论文质量较高,DBLP的文献更新速度很快,很好地反应了国外学术研究的前沿方向。
Scopus是一个新的导航工具,它涵盖了世界上最广泛的科技和医学文献的文摘、参考文献及索引。Scopus收录了来自于许多著名的期刊文献如Elsevier、Kluwer、Institutionof Electrical Engineers、JohnWiley、Springer、Nature、AmericanChemicalSociety等等。尤为重要的是,Scopus还广泛的收录了重要的中文期刊,如:《计算机学报》 等其它众多高品质的期刊。正因为拥有60%的内容来自于美国以外的国家,您就能够获得最全面的世界范围内的前瞻性科学技术医学文献。
Step 1:dplp中爬取期刊中文章和作者信息
可以从https://dblp.uni-trier.de/db/journals/nn/看到期刊Neural Networks的所有内容。
打开2019: Volumes 109可以可看到,期刊中包含的文章名和作者等信息。
<