1.什么是分位数?
简单说就是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
Q1-数据中有25%个数据都比它小,第一分位数
Q2-中位数
Q3-数据中有75%个数据都比它小,第三分位数
箱线图:
箱线图可以从侧面看出异常值和数据的分布情况,在上图数据比较集中在比较大的数。
用python 计算分位数:
怎么计算分位数:https://blog.youkuaiyun.com/juliarjuliar/article/details/81082934
import numpy as np
import pandas as pd
# array数据处理
a = np.array([7, 15, 36, 39, 40, 41, 20, 18]) # 不需要从小到大排序
# 方法一:用numpy中的percentile
median_data = np.median(a) # 中位数
percent_data = np.percentile(a, 25) # 25%分位数
print(median_data)
print(percent_data)
# 方法二:用pandas中的quantile
b = pd.DataFrame(a) # 数据转化
median_data1_pd = b.median() # 中位数
quant_data = b.quantile(0.25) # 25%分位数
print(median_data1_pd)
print(quant_data)
# .csv文件处理
data = pd.read_csv('test_3class.csv')
# 1.quantile方法
quant_data = data['math'].quantile(0.25)
print("quant_data = ", quant_data)
# 2.percentile方法
percent_data = np.percentile(data['math'], 25)
print("percent_data = ", percent_data)