铁川-优快云博客

原创数据分析—学术前沿趋势分析—task5作者信息关联

数据分析—学术前沿趋势分析—task5作者信息关联1 任务说明2 数据处理步骤3 社交网络分析3.1 图类型3.2 图统计指标4 具体代码以及讲解 1 任务说明学习主题：作者关联（数据建模任务），对论文作者关系进行建模，统计最常出现的作者关系；学习内容：构建作者关系图，挖掘作者关系学习成果：论文作者知识图谱、图关系挖掘 2 数据处理步骤将作者列表进行处理，并完成统计。具体步骤如下：将论文第一作者与其他作者（论文非第一作者）构建图；使用图算法统计图中作者与其他作者的联系； 3 社交网络分析

2021-01-25 23:11:54 151

原创数据分析—学术前沿趋势分析—task4论文种类分类

数据分析—学术前沿趋势分析—task4论文种类分类1 任务说明2 数据处理步骤3 文本分类思路4 具体代码实现以及讲解4.1 思路14.2 思路2 1 任务说明学习主题：论文分类（数据建模任务），利用已有数据建模，对新论文进行类别分类；学习内容：使用论文标题完成类别分类；学习成果：学会文本分类的基本方法、TF-IDF等； 2 数据处理步骤在原始arxiv论文中论文都有对应的类别，而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成：对论文标题和摘要进行处理；对论文类别进行处

2021-01-22 20:08:16 134

原创数据分析—学术前沿趋势分析—task2 论文作者统计

数据分析—学术前沿趋势分析—task2 论文作者统计1 任务说明2 数据处理步骤3 正则表达式3.1 普通字符：大写和小写字母、所有数字、所有标点符号和一些其他符号3.2 特殊字符：有特殊含义的字符3.3 限定符4 具体代码实现以及讲解 1 任务说明任务主题：论文代码统计，统计所有论文出现代码的相关统计；任务内容：使用正则表达式统计代码连接、页数和图表数据；任务成果：学习正则表达式统计； 2 数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的

2021-01-19 21:15:24 132

原创数据分析—学术前沿趋势分析—task2 论文作者统计

数据分析—学术前沿趋势分析—task2 论文作者统计1 任务说明2 技术要点2.1 作者姓名处理2.2 字符串处理3 具体代码实现以及讲解3.1 数据读取3.2 数据统计3.3 图像绘制 1 任务说明任务主题：论文作者统计，统计所有论文作者出现评率Top10的姓名；任务内容：论文作者的统计、使用 Pandas 读取数据并使用字符串操作；任务成果：学习 Pandas 的字符串操作； 2 技术要点 2.1 作者姓名处理在原始arxiv数据集中论文作者authors字段是一个字符串格式，其中每个作者使

2021-01-16 18:33:53 164

原创数据分析—学术前沿趋势分析—task1 论文数据统计

数据分析—学术前沿趋势分析—task1 论文数据统计数据分析—学术前沿趋势分析—task1 论文数据统计1 背景简介2 数据介绍2.1 数据来源2.2 数据介绍3 数据统计思路与代码实现3.1 导入数据并读取3.2 数据预处理3.3 数据分析与可视化4 总结 1 背景简介本篇博客是来自datawhale开源团队集体学习项目。题目是以kaggle里面一个比赛为例子，比赛地址是：https://www.kaggle.com/Cornell-University/arxiv，对使用公开的arxiv论文完成一

2021-01-13 22:07:19 453 1