一 基本统计
基本统计分析又叫描述性统计分析,一般统计某个变量的最小值,第一四分位值,中值,第三四分位值,以及最大值。
常用的统计指标:
| 指标 | panda方法或属性 |
|---|---|
| 计数 | size() |
| 最大值 | max |
| 最小值 | min |
| 求和 | sum |
| 平均值 | mean |
| 方差 | var |
| 标准差 | std |
| 显示各个等分值 | describe() |
二 分组分析
根据分组字段,将分析对象划分为不同的部分,以进行对比各组之间差异性的一种分析方法。
常用的统计指标:计数,求和,平均值
三 分布分析
分布分析是指根据分析目的,将数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法;举例来说,把年龄12-80的一群人分为[20岁以下, 20-29, 30-39, 40以上],在比较各组人数多少
四 交叉分析
交叉分析通常用于分析两个或两个以上,分组变量之间的关系,以表形式进行变量间关系的对比比较
分为:
- 定量-定量分析
- 定量-定性分析
- 定性-定性分析
五 结构分析
在分组的基础上, 计算各组成部分所占的比重,进而分析总体内部特征的一种分析方法。
六 相关分析
研究现象之间是否存在某种依赖分析,并对具有依存分析的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
| 相关系数r取值范围 | 相关程度 |
|---|---|
| 0<=|r|<0.3 | 低度相关 |
| 0.3<=|r|<0.8 | 中度相关 |
| 0.8<=|r|<=1 | 高度相关 |
相关分析函数:
| 函数 | 作用 | 返回值 |
|---|---|---|
| dataframe.corr() | 就会计算每个列两两之间的相关性 | DateFrame |
| Series.corr(other) | 计算series与传入的序列之间的相关度 | 数值,大小为相关度 |

被折叠的 条评论
为什么被折叠?



