- 博客(5)
- 收藏
- 关注
原创 数据分析—学术前沿趋势分析—task5作者信息关联
数据分析—学术前沿趋势分析—task5作者信息关联1 任务说明2 数据处理步骤3 社交网络分析3.1 图类型3.2 图统计指标4 具体代码以及讲解 1 任务说明 学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系; 学习内容:构建作者关系图,挖掘作者关系 学习成果:论文作者知识图谱、图关系挖掘 2 数据处理步骤 将作者列表进行处理,并完成统计。具体步骤如下: 将论文第一作者与其他作者(论文非第一作者)构建图; 使用图算法统计图中作者与其他作者的联系; 3 社交网络分析
2021-01-25 23:11:54
151
原创 数据分析—学术前沿趋势分析—task4论文种类分类
数据分析—学术前沿趋势分析—task4论文种类分类1 任务说明2 数据处理步骤3 文本分类思路4 具体代码实现以及讲解4.1 思路14.2 思路2 1 任务说明 学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类; 学习内容:使用论文标题完成类别分类; 学习成果:学会文本分类的基本方法、TF-IDF等; 2 数据处理步骤 在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成: 对论文标题和摘要进行处理; 对论文类别进行处
2021-01-22 20:08:16
134
原创 数据分析—学术前沿趋势分析—task2 论文作者统计
数据分析—学术前沿趋势分析—task2 论文作者统计1 任务说明2 数据处理步骤3 正则表达式3.1 普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号3.2 特殊字符:有特殊含义的字符3.3 限定符4 具体代码实现以及讲解 1 任务说明 任务主题:论文代码统计,统计所有论文出现代码的相关统计; 任务内容:使用正则表达式统计代码连接、页数和图表数据; 任务成果:学习正则表达式统计; 2 数据处理步骤 在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的
2021-01-19 21:15:24
132
原创 数据分析—学术前沿趋势分析—task2 论文作者统计
数据分析—学术前沿趋势分析—task2 论文作者统计1 任务说明2 技术要点2.1 作者姓名处理2.2 字符串处理3 具体代码实现以及讲解3.1 数据读取3.2 数据统计3.3 图像绘制 1 任务说明 任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名; 任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作; 任务成果:学习 Pandas 的字符串操作; 2 技术要点 2.1 作者姓名处理 在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使
2021-01-16 18:33:53
164
原创 数据分析—学术前沿趋势分析—task1 论文数据统计
数据分析—学术前沿趋势分析—task1 论文数据统计 数据分析—学术前沿趋势分析—task1 论文数据统计1 背景简介2 数据介绍2.1 数据来源2.2 数据介绍3 数据统计思路与代码实现3.1 导入数据并读取3.2 数据预处理3.3 数据分析与可视化4 总结 1 背景简介 本篇博客是来自datawhale开源团队集体学习项目。 题目是以kaggle里面一个比赛为例子,比赛地址是:https://www.kaggle.com/Cornell-University/arxiv,对使用公开的arxiv论文完成一
2021-01-13 22:07:19
453
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人