数据分析简单流程

一 基本统计

基本统计分析又叫描述性统计分析,一般统计某个变量的最小值,第一四分位值,中值,第三四分位值,以及最大值。
常用的统计指标:

指标panda方法或属性
计数size()
最大值max
最小值min
求和sum
平均值mean
方差var
标准差std
显示各个等分值describe()

二 分组分析

根据分组字段,将分析对象划分为不同的部分,以进行对比各组之间差异性的一种分析方法。
常用的统计指标:计数,求和,平均值

三 分布分析

分布分析是指根据分析目的,将数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法;举例来说,把年龄12-80的一群人分为[20岁以下, 20-29, 30-39, 40以上],在比较各组人数多少

四 交叉分析

交叉分析通常用于分析两个或两个以上,分组变量之间的关系,以表形式进行变量间关系的对比比较
分为:

  • 定量-定量分析
  • 定量-定性分析
  • 定性-定性分析

五 结构分析

在分组的基础上, 计算各组成部分所占的比重,进而分析总体内部特征的一种分析方法。

六 相关分析

研究现象之间是否存在某种依赖分析,并对具有依存分析的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

相关系数r取值范围相关程度
0<=|r|<0.3低度相关
0.3<=|r|<0.8中度相关
0.8<=|r|<=1高度相关

相关分析函数:

函数作用返回值
dataframe.corr()就会计算每个列两两之间的相关性DateFrame
Series.corr(other)计算series与传入的序列之间的相关度数值,大小为相关度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值