自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 数据分析—学术前沿趋势分析—task5作者信息关联

数据分析—学术前沿趋势分析—task5作者信息关联1 任务说明2 数据处理步骤3 社交网络分析3.1 图类型3.2 图统计指标4 具体代码以及讲解 1 任务说明 学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系; 学习内容:构建作者关系图,挖掘作者关系 学习成果:论文作者知识图谱、图关系挖掘 2 数据处理步骤 将作者列表进行处理,并完成统计。具体步骤如下: 将论文第一作者与其他作者(论文非第一作者)构建图; 使用图算法统计图中作者与其他作者的联系; 3 社交网络分析

2021-01-25 23:11:54 151

原创 数据分析—学术前沿趋势分析—task4论文种类分类

数据分析—学术前沿趋势分析—task4论文种类分类1 任务说明2 数据处理步骤3 文本分类思路4 具体代码实现以及讲解4.1 思路14.2 思路2 1 任务说明 学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类; 学习内容:使用论文标题完成类别分类; 学习成果:学会文本分类的基本方法、TF-IDF等; 2 数据处理步骤 在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成: 对论文标题和摘要进行处理; 对论文类别进行处

2021-01-22 20:08:16 134

原创 数据分析—学术前沿趋势分析—task2 论文作者统计

数据分析—学术前沿趋势分析—task2 论文作者统计1 任务说明2 数据处理步骤3 正则表达式3.1 普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号3.2 特殊字符:有特殊含义的字符3.3 限定符4 具体代码实现以及讲解 1 任务说明 任务主题:论文代码统计,统计所有论文出现代码的相关统计; 任务内容:使用正则表达式统计代码连接、页数和图表数据; 任务成果:学习正则表达式统计; 2 数据处理步骤 在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的

2021-01-19 21:15:24 132

原创 数据分析—学术前沿趋势分析—task2 论文作者统计

数据分析—学术前沿趋势分析—task2 论文作者统计1 任务说明2 技术要点2.1 作者姓名处理2.2 字符串处理3 具体代码实现以及讲解3.1 数据读取3.2 数据统计3.3 图像绘制 1 任务说明 任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名; 任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作; 任务成果:学习 Pandas 的字符串操作; 2 技术要点 2.1 作者姓名处理 在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使

2021-01-16 18:33:53 164

原创 数据分析—学术前沿趋势分析—task1 论文数据统计

数据分析—学术前沿趋势分析—task1 论文数据统计 数据分析—学术前沿趋势分析—task1 论文数据统计1 背景简介2 数据介绍2.1 数据来源2.2 数据介绍3 数据统计思路与代码实现3.1 导入数据并读取3.2 数据预处理3.3 数据分析与可视化4 总结 1 背景简介 本篇博客是来自datawhale开源团队集体学习项目。 题目是以kaggle里面一个比赛为例子,比赛地址是:https://www.kaggle.com/Cornell-University/arxiv,对使用公开的arxiv论文完成一

2021-01-13 22:07:19 453 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除