- 博客(6)
- 收藏
- 关注
原创 【无标题】
1、检查缺失值的方法df.isnull().sum()df.info()2、缺失值的处理方法df.dropna(axis=0, how=‘any’,thresh=None,subset=None,inplace=False)axis:行还是列how:所有都是nan才删掉,还是有一个就删掉#thresh = 2:有两个nan的行删掉#subset = [‘1’,‘2’]:在 1 ,2列中寻找df.fillna(value=None,method=None,axis=None,inplace=
2021-11-18 13:23:08
193
原创 动手学数据分析 -- 2021-11-15
动手学数据分析第一章 数据的载入及pandas基础1、os.getcwd ------ 返回当前工作目录2、pd.read_table(路径,sep = ‘,’ 或 ‘\t’ 默认是制表位)3、pd.read_csv——参考链接:https://www.cnblogs.com/traditional/p/12514914.html4、dataframe 修改列名与行名方法一:df.columns = [‘a’,‘b’,‘c’]df.index = [‘a0’,‘a1’,‘a2’
2021-11-15 14:41:08
1299
原创 Datawhale-学术前沿趋势分析-Task04
Datawhale-学术前沿趋势分析-Task04任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;具体代码实现以及讲解导入数据import setuptoolsimport seaborn as snsfrom bs4 import BeautifulSoupimport re import requestsimport jsonimport pandas as
2021-01-16 14:20:21
221
1
原创 Datawhale-学术前沿趋势分析-Task03
Datawhale-学术前沿趋势分析-Task03任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;具体代码实现导入数据import setuptoolsimport seaborn as snsfrom bs4 import BeautifulSoupimport re import requestsimport jsonimport pandas as pd import mat
2021-01-16 14:19:28
217
原创 Datawhale-学术前沿趋势分析-Task02
Datawhale-学术前沿趋势分析-Task02任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;具体代码实现数据读取import setuptoolsimport seaborn as snsfrom bs4 import BeautifulSoupimport re import requestsimport jsonimport pan
2021-01-15 11:44:46
378
1
原创 Datawhale-学术前沿趋势分析-Task01
Datawhale-学术前沿趋势分析-Task01任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作。数据集介绍数据集来源:数据及来源.数据集的格式如下:id:arXiv ID,可用于访问论文;submitter:论文提交者;authors:论文作者;title:论文标题;comments:论文页数和图表等其他信息;journal-ref:论文发表的期刊的
2021-01-13 21:38:43
216
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅