【说明】文章内容来自《机器学习入门——基于sklearn》,用于学习记录。若有争议联系删除。
1、稀疏矩阵
若数值为0的元素数目远远多于非0元素的数目,并且非0 元素分布没有规律时,该矩阵称为稀疏矩阵。coo_matrix函数用于创建稀疏矩阵。
#稀疏矩阵 coo_matrix创建稀疏矩阵
from scipy.sparse import *
import numpy as np
#使用一个已有的矩阵创建新矩阵
A = coo_matrix([[1,2,0],[0,0,3],[4,0,5]])
print(A)
#转化为普通矩阵
C = A.todense()
print(C)
#传入一个(data,(row,col))元组来构建稀疏矩阵
I = np.array([0,3,1,0])
J = np.array([0,3,1,2])
V = np.array([4,5,7,9])
A = coo_matrix((V,(I,J)),shape = (4,4))
print(A)
【运行结果】
(0, 0) 1 (0, 1) 2 (1, 2) 3 (2, 0) 4 (2, 2) 5 [[1 2 0] [0 0 3] [4 0 5]] (0, 0) 4 (3, 3) 5 (1, 1) 7 (0, 2) 9
2.泊松分布
描述单位时间(或面试等)内随机事件发生的次数。可视为二项分布的极限。scipy.poisson函数可实现泊松分布。
from scipy.stats import poisson
import matplotlib.pyplot as plt
import numpy as np
fig,ax = plt.subplots(1,1)#1行1列
mu = 2
#求平均值、方差、偏差、和峰度
mean, var, skew, kurt = poisson.stats(mu, moments = 'mvsk')
print(mean, var, skew, kurt)
#ppf为积分布函数的反函数。q = 0.01时,ppf就是p(X<x)=0.01时的X的值
x = np.arange(poisson.ppf(0.01, mu),poisson.ppf(0.99, mu))
ax.plot(x, poisson.pmf(x, mu), 'o')
plt.title(u'泊松分布概率质量函数')
from pylab import mpl
mpl.rcParams['font.sans-serif']=['SimHei']
mpl.rcParams['axes.unicode_minus']=False
plt.show()
【运行结果】
2.0 2.0 0.7071067811865476 0.5
3.二项分布
二项分布又叫伯努利分布,是统计变量中只有性质不同的两项群体的概率分布,也就是两个对立事件的概率分布。scipy.binom(n, p)函数可实现二项分布。
#二项分布
from scipy.stats import binom
import matplotlib.pyplot as plt
import numpy as np
fig, ax = plt.subplots(1,1)
n = 100
p = 0.5
#求平均值、方差、偏差和峰度
mean, var, skew, kurt = binom.stats(n,p,moments = 'mvsk')
print(mean, var, skew, kurt)
##ppf为积分布函数的反函数。q = 0.01时,ppf就是p(X<x)=0.01时的X的值
#ppf 百分比点函数;pmf离散变量质量函数
x = np.arange(binom.ppf(0.01, n, p), binom.ppf(0.99, n, p))
ax.plot(x, binom.pmf(x, n, p), 'o')
plt.title(u'二项分布概率质量函数')
plt.show()
【运行结果】
4.正态分布
正态分布也称常态分布或高斯分布在统计学的许多方面有重要应用,正态曲线呈钟形,两头低中间高,左右对称,因此也称为钟形曲线。正态分布由平均值和方差两个参数描述。由scipy.norm函数实现正态分布的概率密度。
#正态分布
from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np
fig,ax = plt.subplots(1,1)
loc = 1
scale = 2.0
mean, var, skew, kurt = norm.stats(loc, scale, moments = 'mvsk')
print(mean, var, skew, kurt)
x = np.linspace(norm.ppf(0.01, loc, scale), norm.ppf(0.99, loc, scale), 100)
ax.plot(x, norm.pdf(x, loc, scale), 'b-', label = 'norm')
plt.title(u'正态分布概率密度函数')
plt.show()
【运行结果】
5. 均匀分布
若随机变量x的概率密度函数为
则称随机变量x俯冲区间[a,b]上的均匀分布。uniform函数可实现均匀分布。
from scipy.stats import uniform
import matplotlib.pyplot as plt
import numpy as np
fig, ax = plt.subplots(1,1)
loc = 1
scale = 1
mean, var, skew, kurt = uniform.stats(loc,scale, moments = 'mvsk')
print(mean, var, skew, kurt)
x = np.linspace(uniform.ppf(0.01, loc, scale), uniform.ppf(0.99, loc, scale,), 100)
ax.plot(x, uniform.pdf(x, loc, scale), 'b-', label = 'uniform')
plt.title(u'均匀分布概率密度函数')
plt.show()
【运行结果】
6.指数分布
指数分布是一种连续概率分布,用于表示独立随机时间发生的时间间隔,st.expon函数可实现指数分布。
#指数分布
from scipy.stats import expon
import matplotlib.pyplot as plt
import numpy as np
fig, ax = plt.subplots(1,1)
lambdaUse = 2
loc = 0
scale = 1.0/lambdaUse
mean, var, skew, kurt = expon.stats(loc, scale, moments = 'mvsk')
print(mean, var, skew, kurt)
x = np.linspace(expon.ppf(0.01, loc, scale), expon.ppf(0.99,loc,scale),100)
ax.plot(x,expon.pdf(x, loc, scale), 'b-', label = 'expon')
plt.title(u'指数分布概率密度函数')
plt.show()
【运行结果】