文章目录
操作环境: pandas-0.24.2, jupyter notebook
本教程以加拿大University of New Brunswick的NSL-KDD数据集为操作对象,来进行pandas常用操作总结
包含了数据清理过程中的常用操作, 有些操作只是罗列出来,(需要使用的)对照本教程到pandas官网文档查询。
1 读取数据、查看数据信息
df.info()
样本数量:125973, 特征数量:43
non-null表明没有缺失值
43个特征数据类型:15(float) + 24(int) + 4(object)
2 查看数据内容
pd.set_option(‘display.max_columns’, None)
pd.set_option(‘display.max_rows’, None)
pd.set_option(‘max_colwidth’, 44)
df.head(10)
3 数据描述
df.describe()