概率相关图像的绘制_正态分布_uniform_pearson_c语言画正态分布的图像-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43334389/article/details/110646845

1、一维随机变量的标准正态分布图

1、代码1

from scipy.stats import multivariate_normal

# 一维随机变量的标准正态分布图
x = np.linspace(0, 5, 10, endpoint=False)
y = multivariate_normal.pdf(x, mean=0, cov=1)
print(x, y)
plt.plot(x, y)
plt.show()

结果展示如下：

2、代码2
也可以使用下面的代码绘制一个均值为0，方差为1的标准正态分布的概率密度函数。

# @Time : 2020/12/8 17:04
# @Description :绘制正态分布概率密度函数
import numpy as np
import matplotlib as mpl
import math
import matplotlib.pyplot as plt

mpl.rcParams['font.sans-serif'] = [u'SimHei']  # FangSong/黑体 FangSong/KaiTi
mpl.rcParams['axes.unicode_minus'] = False
# 均值和标准差
mu = 0
sigma = 1
x = np.linspace(mu - 3 * sigma, mu + 3 * sigma, 51)
y = np.exp(-(x - mu) ** 2 / (2 * sigma ** 2)) / (math.sqrt(2 * math.pi) * sigma)
print(x.shape)
print('x = \n', x)
print(y.shape)
print('y = \n', y)
plt.figure(facecolor='w')
plt.plot(x, y, 'r-', x, y, 'go', linewidth=2, markersize=8)
plt.xlabel('X', fontsize=15)
plt.ylabel('Y', fontsize=15)
plt.title(u'高斯分布函数', fontsize=18)
plt.grid(True)
plt.show()

结果展示：

2、使用中心极限定理将均匀分布转换为高斯分布

对于随机数的理解：设随机变量 X 的分布函数为F(X)，{Xi,i=1,2,⋯}，其独立同分布 F(X) ，则 {Xi,i=1,2,⋯} 的一次观察值{x1,x2,x3,⋯}，称为分布 F(X) 随机数序列，简称随机数。
1、代码

# @Time : 2020/12/4 16:28
# @Description : 均匀分布转换为高斯分布
import numpy as np
import matplotlib.pyplot as plt

if __name__ == "__main__":

    u = np.random.uniform(0.0, 1.0, 10000)
    print(u)
    plt.hist(u, 10, facecolor='g', alpha=0.75)
    plt.grid(True)
    plt.show()

    # 中心极限定义，独立同分布（均匀分布）的随机变量最后会变成正态分布
    times = 10000
    for time in range(times):
        u += np.random.uniform(0.0, 1.0, 10000)
    u /= times
    plt.hist(u, 80, facecolor='g', alpha=0.75)
    plt.grid(True)
    plt.show()

2、结果展示
（1）均匀分布条形图

（2）正态分布条形图

3、九点分布图

1、描述
统计数字的概率：

2、代码

# @Time : 2020/12/3 16:58
# @Description : 九点分布概率测试
import matplotlib.pyplot as plt
import numpy as np


# 求阶乘的首位数字（1-9）
def first_digital(x):
    while x >= 10:
        # 只需要取整数部分即可
        x = int(x / 10)
    return x


if __name__ == "__main__":
    n = 1
    frequency = np.zeros(9, dtype=int)
    for i in range(1, 11):
        n *= i
        # 从0开始数
        m = first_digital(n) - 1
        frequency[m] += 1
    # [2 2 2 1 1 1 1 0 0]
    print(frequency)
    x_axis = np.arange(1, len(frequency) + 1, 1)
    plt.plot(x_axis, frequency, 'r-', linewidth=2)
    plt.plot(x_axis, frequency, 'go', markersize=8)
    plt.grid(True)
    plt.show()

3、结果展示

4、皮尔森(pearson)相关系数

1、描述
相关系数定义如下：

使用scipy.stats.pearsonr函数可以进行计算相关系数，格式如下：

# 计算相关系数
p1 = pearsonr(X[:,0],y)

其中，输入：x为特征，y为目标变量；输出：r：相关系数 [-1，1]之间，p-value: p值。（p值越小，表示相关系数越显著，一般p值在500个样本以上时有较高的可靠性。）

2、代码

# @Time : 2020/12/6 16:35
# @Description :相关系数的理解
import numpy as np
from scipy import stats
import matplotlib as mpl
import matplotlib.pyplot as plt

mpl.rcParams['axes.unicode_minus'] = False
mpl.rcParams['font.sans-serif'] = 'SimHei'


def calc_pearson(x, y):
    """
    @param x: 变量
    @param y: 和x同维度的变量
    @return: x,y之间的协方差
    """
    std1 = np.std(x)
    # np.sqrt(np.mean(x**2) - np.mean(x)**2)
    std2 = np.std(y)
    # 获取第一行第二列的数据，即为cov(x,y)
    cov = np.cov(x, y, bias=True)[0, 1]
    return cov / (std1 * std2)


def intro():
    """
    @desc:求解相关系数
    """
    N = 10
    x = np.random.rand(N)
    y = 2 * x + np.random.randn(N) * 0.1
    # [0.5488135  0.71518937 0.60276338 0.54488318 0.4236548  0.64589411
    #  0.43758721 0.891773   0.96366276 0.38344152]
    print(x)
    # [1.11203136 1.57580608 1.28163052 1.10193387 0.89169592 1.32515566
    #  1.02458233 1.76303018 1.95863229 0.68147346]
    print(y)
    # 系统计算： 0.9838743911427421
    print('系统计算：', stats.pearsonr(x, y)[0])
    # 手动计算： 0.9838743911427422
    print('手动计算：', calc_pearson(x, y))


def rotate(x, y, theta=45):
    """
    @param x: 变量
    @param y: 和x同维度的变量
    @param theta:角度
    @return:
    """
    data = np.vstack((x, y))
    mu = np.mean(data, axis=1)
    mu = mu.reshape((-1, 1))
    # 数据减去均值，相乘一种对称的结构
    data -= mu
    theta *= (np.pi / 180)
    # 旋转角度的核心代码
    c = np.cos(theta)
    s = np.sin(theta)
    m = np.array(((c, -s), (s, c)))
    # 将图像向均值方向移动
    return m.dot(data) + mu


def pearson(x, y, tip):
    # 定义颜色
    clrs = list('rgbmycrgbmycrgbmycrgbmyc')
    plt.figure(figsize=(10, 8), facecolor='w')
    for i, theta in enumerate(np.linspace(0, 90, 6)):
        xr, yr = rotate(x, y, theta)
        p = stats.pearsonr(xr, yr)[0]
        # print calc_pearson(xr, yr)
        print('旋转角度：', theta, 'Pearson相关系数：', p)
        str = u'相关系数：%.3f' % p
        plt.scatter(xr, yr, s=40, alpha=0.9, linewidths=0.5, c=clrs[i], marker='o', label=str)
    plt.legend(loc='upper left', shadow=True)
    plt.xlabel(u'X')
    plt.ylabel(u'Y')
    plt.title(u'Pearson相关系数与数据分布：%s' % tip, fontsize=18)
    plt.grid(b=True)
    plt.show()


if __name__ == '__main__':
    np.random.seed(0)
    # print("-----------求解相关系数-----------")
    # intro()

    N = 1000
    # tip = u'一次函数关系'
    # x = np.random.rand(N)
    # y = np.zeros(N) + np.random.randn(N) * 0.001

    tip = u'二次函数关系'
    x = np.random.rand(N)
    y = x ** 2

    # tip = u'正切关系'
    # x = np.random.rand(N) * 1.4
    # y = np.tan(x)

    # tip = u'二次函数关系'
    # x = np.linspace(-1, 1, 101)
    # y = x ** 2
    pearson(x, y, tip)

3、结果展示
控制台输出：

旋转角度： 0.0 Pearson相关系数： 0.9687517746690602
旋转角度： 18.0 Pearson相关系数： 0.9505336293706568
旋转角度： 36.0 Pearson相关系数： 0.722689237000244
旋转角度： 54.0 Pearson相关系数： -0.8073637346198107
旋转角度： 72.0 Pearson相关系数： -0.9560205311634502
旋转角度： 90.0 Pearson相关系数： -0.9687517746690599

图形显示：

5、二元正态分布

1、代码

# @Time : 2020/12/6 15:17
# @Description :多维高斯分布

import numpy as np
from scipy import stats
import matplotlib as mpl
import matplotlib.pyplot as plt
# from mpl_toolkits.mplot3d import Axes3D
from matplotlib import cm

mpl.rcParams['axes.unicode_minus'] = False
mpl.rcParams['font.sans-serif'] = 'SimHei'

if __name__ == '__main__':
    x1, x2 = np.mgrid[-5:5:51j, -5:5:51j]
    x = np.stack((x1, x2), axis=2)

    plt.figure(figsize=(9, 8), facecolor='w')
    # 第一个为标准的高斯分布；第二个分布变矮和胖了；第三个分布在（俯视图）在y轴上变长了，方差比较大；
    # 第四个分布是一个斜着的椭圆（俯视图）
    # 方差是一个2*2的一个方阵
    sigma = (np.identity(2), np.diag((3, 3)), np.diag((2, 5)), np.array(((2, 1), (2, 5))))
    for i in np.arange(4):
        ax = plt.subplot(2, 2, i + 1, projection='3d')
        # 是一个二维的变量，因此均值是一个tuple,然后我们在此基础上讨论方差
        norm = stats.multivariate_normal((0, 0), sigma[i])
        y = norm.pdf(x)
        ax.plot_surface(x1, x2, y, cmap=cm.Accent, rstride=2, cstride=2, alpha=0.9, lw=0.3)
        ax.set_xlabel(u'X')
        ax.set_ylabel(u'Y')
        ax.set_zlabel(u'Z')
    plt.suptitle(u'二元高斯分布方差比较', fontsize=18)
    plt.tight_layout(1.5)
    plt.show()

2、结果展示