datawhale的数据分析学习
文章平均质量分 94
减肥的卡比兽
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第二章 论文作者分析
任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例子:C. Bal\\'azs, E. L. Berger, P. M. Na原创 2021-01-14 22:03:42 · 544 阅读 · 0 评论 -
第一章 论文数据统计
导入package并读取原始数据# 导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请求,使用域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.p原创 2021-01-14 00:55:50 · 989 阅读 · 1 评论
分享