数据分析(三)-优快云博客

文章所用数据文件内容展示：

LJdata.csv

city_day.csv

1 常用排序和统计函数

1 排序

sort_values()

# by 指定排序的字段  可以传入列表，做多字段排序， 比如下面的例子：
# 当价格相同的时候， 价格相同的数据再按面积排序
# ascending 也可以传入列表，长度更by 的列表相同， 多字段排序的时候，
# 每个字段是升序还是降序排可以手动指定
df.sort_values(by=['价格','面积'],ascending=False)

nlargest()

nsmallest()

df.nlargest(5,columns=['价格'])  # 价格 n个最大的
df.nsmallest(5,columns=['价格'])  # n个最小的

2 统计函数

df.corr() 计算相关性，判断两列数据是否同增同减

如果两列变量一个增加，另外一个也增加，一个减少另外一个也减少，说明他们之间具备正相关性，计算出来的相关系数>0 相关系数>0.7 强相关 0.3~0.7 之间具有相关性 <0.3 相关性比较弱
如果两列变量一个增加，另外一个减少，一个减少另外一个增加，说明他们之间具备负相关性

2 缺失值处理

2.1 认识缺失值， Pandas如何表示缺失值

from numpy import NaN,NAN,nan

Nan 是一个特殊的float类型的数据，它和任何值都不相等

2.2 加载数据后，如何判断缺失值数量

pd

数据分析(三)

文章所用数据文件内容展示：

LJdata.csv

city_day.csv

1 常用排序和统计函数

1 排序

2 统计函数

2 缺失值处理

2.1 认识缺失值， Pandas如何表示缺失值

2.2 加载数据后， 如何判断缺失值数量

2.2 加载数据后，如何判断缺失值数量