文章所用数据文件内容展示:
LJdata.csv
city_day.csv
1 常用排序和统计函数
1 排序
sort_values()
# by 指定排序的字段 可以传入列表,做多字段排序, 比如下面的例子:
# 当价格相同的时候, 价格相同的数据再按面积排序
# ascending 也可以传入列表,长度更by 的列表相同, 多字段排序的时候,
# 每个字段是升序还是降序排可以手动指定
df.sort_values(by=['价格','面积'],ascending=False)
nlargest()
nsmallest()
df.nlargest(5,columns=['价格']) # 价格 n个最大的
df.nsmallest(5,columns=['价格']) # n个最小的
2 统计函数
df.corr() 计算相关性, 判断两列数据是否同增同减
-
如果两列变量 一个增加, 另外一个也增加, 一个减少另外一个也减少, 说明他们之间具备正相关性 , 计算出来的相关系数>0 相关系数>0.7 强相关 0.3~0.7 之间 具有相关性 <0.3 相关性比较弱
-
如果两列变量 一个增加, 另外一个减少, 一个减少另外一个增加, 说明他们之间具备负相关性
相关性的应用场景
-
用来判断不同数据之间是否有关联, 如果两列数据相关性比较强, 说明他们之间可能具有因果关系
-
在数据分析过程中, 归因分析是比较重要的, 做归因可以从计算相关性开始进行分析
-
相关不等于因果
df.min() 最小 df.max() 最大 df.mean() 平均 df.std() 标准差 df.sum() 求和
-
计算这些统计量的时候, 如果df中又多列数值型的数据, 既可以按行计算, 也可以按列计算, 通过传入0,1来进行控制
2 缺失值处理
2.1 认识缺失值, Pandas如何表示缺失值
from numpy import NaN,NAN,nan
Nan 是一个特殊的float类型的数据, 它和任何值都不相等
2.2 加载数据后, 如何判断缺失值数量
pd