1、一维随机变量的标准正态分布图
1、代码1
from scipy.stats import multivariate_normal
# 一维随机变量的标准正态分布图
x = np.linspace(0, 5, 10, endpoint=False)
y = multivariate_normal.pdf(x, mean=0, cov=1)
print(x, y)
plt.plot(x, y)
plt.show()
结果展示如下:
2、代码2
也可以使用下面的代码绘制一个均值为0,方差为1的标准正态分布的概率密度函数。
# @Time : 2020/12/8 17:04
# @Description :绘制正态分布概率密度函数
import numpy as np
import matplotlib as mpl
import math
import matplotlib.pyplot as plt
mpl.rcParams['font.sans-serif'] = [u'SimHei'] # FangSong/黑体 FangSong/KaiTi
mpl.rcParams['axes.unicode_minus'] = False
# 均值和标准差
mu = 0
sigma = 1
x = np.linspace(mu - 3 * sigma, mu + 3 * sigma, 51)
y = np.exp(-(x - mu) ** 2 / (2 * sigma ** 2)) / (math.sqrt(2 * math.pi) * sigma)
print(x.shape)
print('x = \n', x)
print(y.shape)
print('y = \n', y)
plt.figure(facecolor='w')
plt.plot(x, y, 'r-', x, y, 'go', linewidth=2, markersize=8)
plt.xlabel('X', fontsize=15)
plt.ylabel('Y', fontsize=15)
plt.title(u'高斯分布函数', fontsize=18)
plt.grid(True)
plt.show()
结果展示:
2、使用中心极限定理将均匀分布转换为高斯分布
对于随机数的理解:设随机变量 X 的分布函数为F(X),{Xi,i=1,2,⋯},其独立同分布 F(X) ,则 {Xi,i=1,2,⋯} 的一次观察值{x1,x2,x3,⋯},称为分布 F(X) 随机数序列,简称随机数。
1、代码
# @Time : 2020/12/4 16:28
# @Description : 均匀分布转换为高斯分布
import numpy as np
import matplotlib.pyplot as plt
if __name__ == "__main__":
u = np.random.uniform(0.0, 1.0, 10000)
print(u)
plt.hist(u, 10, facecolor='g', alpha=0.75)
plt.grid(True)
plt.show()
# 中心极限定义,独立同分布(均匀分布)的随机变量最后会变成正态分布
times = 10000
for time in range(times):
u += np.random.uniform(0.0, 1.0, 10000)
u /= times
plt.hist(u, 80, facecolor='g', alpha=0.75)
plt.grid(True)
plt.show()
2、结果展示
(1)均匀分布条形图
(2)正态分布条形图
3、九点分布图
1、描述
统计数字的概率:
2、代码
# @Time : 2020/12/3 16:58
# @Description : 九点分布概率测试
import matplotlib.pyplot as plt
import numpy as np
# 求阶乘的首位数字(1-9)
def first_digital(x):
while x >= 10:
# 只需要取整数部分即可
x = int(x / 10)
return x
if __name__ == "__main__":
n = 1
frequency = np.zeros(9, dtype=int)
for i in range(1, 11):
n *= i
# 从0开始数
m = first_digital(n) - 1
frequency[m] += 1
# [2 2 2 1 1 1 1 0 0]
print(frequency)
x_axis = np.arange(1, len(frequency) + 1, 1)
plt.plot(x_axis, frequency, 'r-', linewidth=2)
plt.plot(x_axis, frequency, 'go', markersize=8)
plt.grid(True)
plt.show()
3、结果展示
4、皮尔森(pearson)相关系数
1、描述
相关系数定义如下:
使用scipy.stats.pearsonr函数可以进行计算相关系数,格式如下:
# 计算相关系数
p1 = pearsonr(X[:,0],y)
其中,输入:x为特征,y为目标变量;输出:r: 相关系数 [-1,1]之间,p-value: p值。(p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。)
2、代码
# @Time : 2020/12/6 16:35
# @Description :相关系数的理解
import numpy as np
from scipy import stats
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rcParams['axes.unicode_minus'] = False
mpl.rcParams['font.sans-serif'] = 'SimHei'
def calc_pearson(x, y):
"""
@param x: 变量
@param y: 和x同维度的变量
@return: x,y之间的协方差
"""
std1 = np.std(x)
# np.sqrt(np.mean(x**2) - np.mean(x)**2)
std2 = np.std(y)
# 获取第一行第二列的数据,即为cov(x,y)
cov = np.cov(x, y, bias=True)[0, 1]
return cov / (std1 * std2)
def intro():
"""
@desc:求解相关系数
"""
N = 10
x = np.random.rand(N)
y = 2 * x + np.random.randn(N) * 0.1
# [0.5488135 0.71518937 0.60276338 0.54488318 0.4236548 0.64589411
# 0.43758721 0.891773 0.96366276 0.38344152]
print(x)
# [1.11203136 1.57580608 1.28163052 1.10193387 0.89169592 1.32515566
# 1.02458233 1.76303018 1.95863229 0.68147346]
print(y)
# 系统计算: 0.9838743911427421
print('系统计算:', stats.pearsonr(x, y)[0])
# 手动计算: 0.9838743911427422
print('手动计算:', calc_pearson(x, y))
def rotate(x, y, theta=45):
"""
@param x: 变量
@param y: 和x同维度的变量
@param theta:角度
@return:
"""
data = np.vstack((x, y))
mu = np.mean(data, axis=1)
mu = mu.reshape((-1, 1))
# 数据减去均值,相乘一种对称的结构
data -= mu
theta *= (np.pi / 180)
# 旋转角度的核心代码
c = np.cos(theta)
s = np.sin(theta)
m = np.array(((c, -s), (s, c)))
# 将图像向均值方向移动
return m.dot(data) + mu
def pearson(x, y, tip):
# 定义颜色
clrs = list('rgbmycrgbmycrgbmycrgbmyc')
plt.figure(figsize=(10, 8), facecolor='w')
for i, theta in enumerate(np.linspace(0, 90, 6)):
xr, yr = rotate(x, y, theta)
p = stats.pearsonr(xr, yr)[0]
# print calc_pearson(xr, yr)
print('旋转角度:', theta, 'Pearson相关系数:', p)
str = u'相关系数:%.3f' % p
plt.scatter(xr, yr, s=40, alpha=0.9, linewidths=0.5, c=clrs[i], marker='o', label=str)
plt.legend(loc='upper left', shadow=True)
plt.xlabel(u'X')
plt.ylabel(u'Y')
plt.title(u'Pearson相关系数与数据分布:%s' % tip, fontsize=18)
plt.grid(b=True)
plt.show()
if __name__ == '__main__':
np.random.seed(0)
# print("-----------求解相关系数-----------")
# intro()
N = 1000
# tip = u'一次函数关系'
# x = np.random.rand(N)
# y = np.zeros(N) + np.random.randn(N) * 0.001
tip = u'二次函数关系'
x = np.random.rand(N)
y = x ** 2
# tip = u'正切关系'
# x = np.random.rand(N) * 1.4
# y = np.tan(x)
# tip = u'二次函数关系'
# x = np.linspace(-1, 1, 101)
# y = x ** 2
pearson(x, y, tip)
3、结果展示
控制台输出:
旋转角度: 0.0 Pearson相关系数: 0.9687517746690602
旋转角度: 18.0 Pearson相关系数: 0.9505336293706568
旋转角度: 36.0 Pearson相关系数: 0.722689237000244
旋转角度: 54.0 Pearson相关系数: -0.8073637346198107
旋转角度: 72.0 Pearson相关系数: -0.9560205311634502
旋转角度: 90.0 Pearson相关系数: -0.9687517746690599
图形显示:
5、二元正态分布
1、代码
# @Time : 2020/12/6 15:17
# @Description :多维高斯分布
import numpy as np
from scipy import stats
import matplotlib as mpl
import matplotlib.pyplot as plt
# from mpl_toolkits.mplot3d import Axes3D
from matplotlib import cm
mpl.rcParams['axes.unicode_minus'] = False
mpl.rcParams['font.sans-serif'] = 'SimHei'
if __name__ == '__main__':
x1, x2 = np.mgrid[-5:5:51j, -5:5:51j]
x = np.stack((x1, x2), axis=2)
plt.figure(figsize=(9, 8), facecolor='w')
# 第一个为标准的高斯分布;第二个分布变矮和胖了;第三个分布在(俯视图)在y轴上变长了,方差比较大;
# 第四个分布是一个斜着的椭圆(俯视图)
# 方差是一个2*2的一个方阵
sigma = (np.identity(2), np.diag((3, 3)), np.diag((2, 5)), np.array(((2, 1), (2, 5))))
for i in np.arange(4):
ax = plt.subplot(2, 2, i + 1, projection='3d')
# 是一个二维的变量,因此均值是一个tuple,然后我们在此基础上讨论方差
norm = stats.multivariate_normal((0, 0), sigma[i])
y = norm.pdf(x)
ax.plot_surface(x1, x2, y, cmap=cm.Accent, rstride=2, cstride=2, alpha=0.9, lw=0.3)
ax.set_xlabel(u'X')
ax.set_ylabel(u'Y')
ax.set_zlabel(u'Z')
plt.suptitle(u'二元高斯分布方差比较', fontsize=18)
plt.tight_layout(1.5)
plt.show()
2、结果展示