
【学术前沿趋势分析】
文章平均质量分 86
项目学术前沿趋势分析
数据闲逛人
18级双非本科学生
展开
-
Task5 作者信息关联 笔记
文章目录任务5:作者信息关联5.1 任务说明5.2 数据处理步骤5.3 社交网络分析5.3.1 图类型5.3.2 图统计指标5.4 具体代码以及讲解 任务5:作者信息关联 5.1 任务说明 学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系; 学习内容:构建作者关系图,挖掘作者关系 学习成果:论文作者知识图谱、图关系挖掘 5.2 数据处理步骤 将作者列表进行处理,并完成统计。具体步骤如下: 将论文第一作者与其他作者(论文非第一作者)构建图; 使用图算法统计图中作者与其他原创 2021-01-25 21:50:14 · 108 阅读 · 1 评论 -
Task4 论文种类分类 笔记
文章目录任务4:论文种类分类4.1 任务说明4.2 数据处理步骤4.3 文本分类思路4.4 具体代码实现以及讲解4.4.1 思路14.4.2 思路2 任务4:论文种类分类 4.1 任务说明 学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类; 学习内容:使用论文标题完成类别分类; 学习成果:学会文本分类的基本方法、TF-IDF等; 4.2 数据处理步骤 在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成: 对论文标题和原创 2021-01-22 20:17:02 · 164 阅读 · 0 评论 -
学术前沿趋势分析 Task3 论文代码统计 笔记3
文章目录任务3:论文代码统计3.1 任务说明3.2 数据处理步骤3.3 正则表达式3.3.1 普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号3.3.2 特殊字符:有特殊含义的字符3.3.3 限定符3.4 具体代码实现以及讲解 任务3:论文代码统计 3.1 任务说明 任务主题:论文代码统计,统计所有论文出现代码的相关统计; 任务内容:使用正则表达式统计代码连接、页数和图表数据; 任务成果:学习正则表达式统计; 3.2 数据处理步骤 在原始arxiv数据集中作者经常会在论文的comments原创 2021-01-16 17:00:24 · 128 阅读 · 0 评论 -
学术前沿趋势分析 Task2 论文作者统计 笔记2
文章目录任务2:论文作者统计2.1 任务说明2.2 数据处理步骤2.3 字符串处理2.4 具体代码实现以及讲解2.4.1 数据读取2.4.2 数据统计小小总结 任务2:论文作者统计 2.1 任务说明 任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名; 任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作; 任务成果:学习 Pandas 的字符串操作; 2.2 数据处理步骤 在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分原创 2021-01-15 00:01:32 · 148 阅读 · 0 评论 -
学术前沿趋势分析 Task1 论文数据统计 笔记1
任务说明 任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量; 任务内容:赛题的理解、使用 Pandas 读取数据并进行统计; 任务成果:学习 Pandas 的基础操作; 可参考的学习资料:开源组织Datawhale joyful-pandas项目 数据集介绍 数据集来源:数据集链接; 数据集的格式如下: id:arXiv ID,可用于访问论文; submitter:论文提交者; authors:论文作者; title:论文标题; comments:论文页数和图表等其他信息; jou原创 2021-01-11 17:06:57 · 338 阅读 · 1 评论