用python学概率与统计(第三章)描述性统计:数值方法

本文介绍了使用Python进行概率与统计分析中的描述性统计数值方法,包括count、describe、min/max、quantile等统计量计算,以及z分数、箱型图在异常值检测中的应用。此外,还探讨了两变量间关系的度量如协方差和相关系数,以及加权平均值的计算。涉及到的数据分析库包括numpy、pandas和matplotlib。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

3.2

################## ********************************

count 非 NA 值的数量
describe 针对 Series 或 DF 的列计算汇总统计
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整数)
idxmin , idxmax 最小值和最大值的索引值
quantile 样本分位数(0 到 1)
sum 求和
mean 均值
median 中位数
mad 根据均值计算平均绝对离差
var 方差
std 标准差
skew 样本值的偏度(三阶矩)
kurt 样本值的峰度(四阶矩)
cumsum 样本值的累计和
cummin , cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff 计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化

3.3 相对位置的度量和异常值的检测

z分数

z=(xix¯)s
切比雪夫定理:与均值距离在z个标准差之内的数据比例至少为(1-1/z2),这里的z是大于1的任何值
z大于3或小于-3的我们视为异常值


df3 = pd.read_csv("E:\\data\\NCAA.csv")

In [167]:

df3.dropna(axis =1,how='all',inplace = True) #空数据清洗

In [169]:

df3.dropna(how='all',inplace = True)
In [170]:

df3
Out[170]:
Winning Team    Points  Losing Team Points.1    Winning Margin
0   Arizona 90.0    Oregon  66.0
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值