##正态假设检验
参考资料:https://blog.youkuaiyun.com/cyan_soul/article/details/81236124
###正态分布,可考虑采用3西格玛准则,(μ-3σ,μ+3σ)
3σ原则为
数值分布在(μ-σ,μ+σ)中的概率为0.6827
数值分布在(μ-2σ,μ+2σ)中的概率为0.9545
数值分布在(μ-3σ,μ+3σ)中的概率为0.9973
可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%.
#####非正态分布则考虑使用箱线图,计算分位数确定上下边界
##使用numpy中的percentile计算分位数
a = np.arange(15)
##计算四分之一分位数、四分之三分位数、中位数
Q1 = np.percentile(a, 25)
Q3 = np.percentile(a, 75)
median = np.percentile(a, 50)
上边界 = Q3 + 1.5(Q3- Q1)
下边界 = Q3 - 1.5(Q3- Q1)
#####绘制箱线图
参考资料:
##pandas自带
https://www.cnblogs.com/wwxbi/p/9032248.html
##seaborn
http://seaborn.pydata.org/examples/horizontal_boxplot.html
##计算均值标准差、分位数,主要针对标准正态分布
参考资料:https://blog.youkuaiyun.com/lanchunhui/article/details/80381367
from scipy.stats import norm
norm.cdf(3) - norm.cdf(-3) ##0.9973002039367398