Scipy——分布函数

最新推荐文章于 2025-05-27 20:54:19 发布

风月雅颂

最新推荐文章于 2025-05-27 20:54:19 发布

阅读量611

点赞数 10

分类专栏：机器学习-基于sklearn 文章标签： scipy numpy python

本文链接：https://blog.youkuaiyun.com/qq_41566819/article/details/134942728

版权

机器学习-基于sklearn 专栏收录该内容

25 篇文章

订阅专栏

【说明】文章内容来自《机器学习入门——基于sklearn》，用于学习记录。若有争议联系删除。

1、稀疏矩阵

若数值为0的元素数目远远多于非0元素的数目，并且非0 元素分布没有规律时，该矩阵称为稀疏矩阵。coo_matrix函数用于创建稀疏矩阵。

#稀疏矩阵 coo_matrix创建稀疏矩阵

from scipy.sparse import *
import numpy as np
#使用一个已有的矩阵创建新矩阵
A = coo_matrix([[1,2,0],[0,0,3],[4,0,5]])
print(A)
#转化为普通矩阵
C = A.todense()
print(C)
#传入一个（data,(row,col)）元组来构建稀疏矩阵
I = np.array([0,3,1,0])
J = np.array([0,3,1,2])
V = np.array([4,5,7,9])
A = coo_matrix((V,(I,J)),shape = (4,4))
print(A)

【运行结果】

  (0, 0)	1
  (0, 1)	2
  (1, 2)	3
  (2, 0)	4
  (2, 2)	5
[[1 2 0]
 [0 0 3]
 [4 0 5]]
  (0, 0)	4
  (3, 3)	5
  (1, 1)	7
  (0, 2)	9

2.泊松分布

描述单位时间（或面试等）内随机事件发生的次数。可视为二项分布的极限。scipy.poisson函数可实现泊松分布。

from scipy.stats import poisson
import matplotlib.pyplot as plt
import numpy as np
fig,ax = plt.subplots(1,1)#1行1列
mu = 2
#求平均值、方差、偏差、和峰度
mean, var, skew, kurt = poisson.stats(mu, moments = 'mvsk')
print(mean, var, skew, kurt)
#ppf为积分布函数的反函数。q = 0.01时，ppf就是p(X<x)=0.01时的X的值
x = np.arange(poisson.ppf(0.01, mu),poisson.ppf(0.99, mu))
ax.plot(x, poisson.pmf(x, mu), 'o')
plt.title(u'泊松分布概率质量函数')
from pylab import mpl 
mpl.rcParams['font.sans-serif']=['SimHei']
mpl.rcParams['axes.unicode_minus']=False
plt.show()

【运行结果】

2.0 2.0 0.7071067811865476 0.5

3.二项分布

二项分布又叫伯努利分布，是统计变量中只有性质不同的两项群体的概率分布，也就是两个对立事件的概率分布。scipy.binom(n, p)函数可实现二项分布。

#二项分布
from scipy.stats import binom
import matplotlib.pyplot as plt
import numpy as np
fig, ax = plt.subplots(1,1)
n = 100
p = 0.5
#求平均值、方差、偏差和峰度
mean, var, skew, kurt = binom.stats(n,p,moments = 'mvsk')
print(mean, var, skew, kurt)
##ppf为积分布函数的反函数。q = 0.01时，ppf就是p(X<x)=0.01时的X的值
#ppf 百分比点函数；pmf离散变量质量函数
x = np.arange(binom.ppf(0.01, n, p), binom.ppf(0.99, n, p))
ax.plot(x, binom.pmf(x, n, p), 'o')
plt.title(u'二项分布概率质量函数')
plt.show()

【运行结果】

4.正态分布

正态分布也称常态分布或高斯分布在统计学的许多方面有重要应用，正态曲线呈钟形，两头低中间高，左右对称，因此也称为钟形曲线。正态分布由平均值和方差两个参数描述。由scipy.norm函数实现正态分布的概率密度。

#正态分布
from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np
fig,ax = plt.subplots(1,1)
loc = 1
scale = 2.0
mean, var, skew, kurt = norm.stats(loc, scale, moments = 'mvsk')
print(mean, var, skew, kurt)

x = np.linspace(norm.ppf(0.01, loc, scale), norm.ppf(0.99, loc, scale), 100)
ax.plot(x, norm.pdf(x, loc, scale), 'b-', label = 'norm')
plt.title(u'正态分布概率密度函数')
plt.show()

【运行结果】

5. 均匀分布

若随机变量x的概率密度函数为

$f(x)=1/(b-a) (a<x<b)$

则称随机变量x俯冲区间[a,b]上的均匀分布。uniform函数可实现均匀分布。

from scipy.stats import uniform
import matplotlib.pyplot as plt
import numpy as np
fig, ax = plt.subplots(1,1)
loc = 1
scale = 1
mean, var, skew, kurt = uniform.stats(loc,scale, moments = 'mvsk')
print(mean, var, skew, kurt)
x = np.linspace(uniform.ppf(0.01, loc, scale), uniform.ppf(0.99, loc, scale,), 100)
ax.plot(x, uniform.pdf(x, loc, scale), 'b-', label = 'uniform')
plt.title(u'均匀分布概率密度函数')
plt.show()

【运行结果】

6.指数分布

指数分布是一种连续概率分布，用于表示独立随机时间发生的时间间隔，st.expon函数可实现指数分布。

#指数分布
from scipy.stats import expon
import matplotlib.pyplot as plt
import numpy as np
fig, ax = plt.subplots(1,1)
lambdaUse = 2
loc = 0 
scale = 1.0/lambdaUse
mean, var, skew, kurt = expon.stats(loc, scale, moments = 'mvsk')
print(mean, var, skew, kurt)
x = np.linspace(expon.ppf(0.01, loc, scale), expon.ppf(0.99,loc,scale),100)
ax.plot(x,expon.pdf(x, loc, scale), 'b-', label = 'expon')
plt.title(u'指数分布概率密度函数')
plt.show()

【运行结果】