Python数据分析笔记(下)

本文详细介绍了Python数据分析中的数据描述,包括集中趋势(平均值、中位数、四分位数、众数)、分散趋势(方差、标准差、极差、四分位差、变异系数)以及数据分布形态的判断。此外,还讨论了数据的分布特征,如偏度和峰度,并展示了如何使用matplotlib和seaborn进行数据可视化。在数据推断部分,通过正态性检验、PP图、QQ图、Shapiro检验和K-S检验等方法探讨数据是否服从正态分布。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据的描述

1.数据的集中趋势
(1)平均值

import pandas as pd
# 1.算数平均值
cars_score=pd.read_csv(r'D:\Projects\Python\Doing\pythonProject\data\cars_score.csv')
print(cars_score.mean(axis=0))
'''
油耗    3.752
动力    4.429
外观    4.763
空间    4.701
dtype: float64
'''
# 2.加权平均值
RFM=pd.read_excel(r'D:\Projects\Python\Doing\pythonProject\data\RFM.xlsx')
RFM['Weight_Mean']=0.2*RFM['R_score']+0.5*RFM['F_score']+0.3*RFM['M_score']
print(RFM.head())
'''
  lst_order_date  freq     tot_amt  R_score  F_score  M_score  Weight_Mean
0     2017-06-01     5  1469.99998        6        4        6          5.0
1     2016-07-11     2   168.00000        3        2        2          2.2
2     2017-07-02     1    79.00000        6        1        1          2.0
3     2016-06-01     1   109.00000        1        1        2          1.3
4     2017-02-19     3   316.00000        5        3        4          3.7
'''
# 3.几何平均值
GDP=pd.read_excel(r'D:\Projects\Python\Doing\pythonProject\data\G_D_P.xlsx')
# 利用cumprod方法实现所有元素的累计乘积
cum_prod=GDP.Grouth.cumprod()
# 基于cum_prod结果,利用索引将最后一个累积元素取出来
res=cum_prod[GDP.shape[0]-1]
# 计算几何平均值
print(pow(res,1/len(cum_prod)))
# 0.08776443979162651

(2)中位数和四分位数

import pandas as pd
import matplotlib.pyplot as plt

tips=pd.read_csv(r'D:\Projects\Python\Doing\pythonProject\data\tips.csv')
# 基于pandas模块中的hist方法绘制直方图
tips.tip.hist(grid=False, # 去除图框内的网格线
              facecolor='steelblue', # 直方图的探充塞
              edgecolor='black' # 直方图的边框色
              )
# plt.show()

# 1.中位数、均值
print(tips.tip.median()) # 2.9
print(tips.tip.mean()) #2.9982786885245902
# 2.四分位点
print(tips.tip.quantile(q=0.25))
print(tips.tip.quantile(q=0.75))

(3)众数

import pandas as pd

titanic=pd.read_excel(r'D:\Projects\Python\Doing\pythonProject\data\Titanic.xlsx')
print(titanic.Embarked.mode())
'''
0    S
dtype: object
'''

income=pd.read_excel(r'D:\Projects\Python\Doing\pythonProject\data\Income.xlsx')
# 返回众数所在组的行索引
index=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值