MATLAB统计分析：协方差、相关系数、偏斜度、峰度及可视化详解-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42613360/article/details/143837185

简介：本压缩包提供了在MATLAB中实践应用统计分析核心概念的方法，包括计算协方差、相关系数、偏斜度、峰度，以及通过频率表和盒图进行数据可视化。这些统计量帮助评估变量关系和数据分布特征。教程涵盖了相关概念的定义、计算公式和实际操作步骤，旨在通过实践加深对统计分析的理解。

1. 协方差的计算与理解

在统计学中，协方差是用来度量两个随机变量联合变化趋势的量，是了解变量间相互依赖性的基础工具。本章我们将深入探讨协方差的计算方法，并通过实例帮助读者理解其含义。

协方差的计算

协方差的计算公式为：

[ \text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) ]

其中，(X) 和 (Y) 是两个随机变量，(X_i) 和 (Y_i) 是它们的观测值，(\bar{X}) 和 (\bar{Y}) 分别是 (X) 和 (Y) 的样本均值。

协方差的意义

正值：(X) 和 (Y) 同时增加或减少，表示正相关。
负值：一个变量增加时另一个减少，表示负相关。
接近零 ：变量之间没有线性关系。

为了更好地理解这个概念，我们可以通过以下步骤计算一组数据的协方差：

计算两个变量的均值。
对每对观测值，求它们与各自均值差的乘积。
求所有乘积的平均值。

协方差的绝对值大小不直观，因为它依赖于变量的单位，因此通常我们使用相关系数来衡量变量间的相关性，相关系数是归一化的协方差。

通过本章的学习，我们不仅了解了协方差的计算方法，还探究了它在数据分析中如何帮助我们理解变量间的相关性。

2. 相关系数的计算与应用

2.1 相关系数的概念与意义

2.1.1 相关系数的定义和数学表达

相关系数是度量两个变量之间线性相关程度的统计指标，其值介于-1与1之间。当相关系数接近1时，表示两个变量存在较强的正相关关系；当相关系数接近-1时，表示存在较强的负相关关系；而接近0则意味着没有线性相关关系。数学上，两个变量X和Y的相关系数ρ可以用以下公式表达：

[ \rho_{X,Y} = \frac{Cov(X,Y)}{\sigma_X \sigma_Y} ]

其中，( Cov(X,Y) )是X和Y的协方差，( \sigma_X )和( \sigma_Y )分别是X和Y的标准差。相关系数衡量的是两个随机变量之间协方差与各自标准差的比值，提供了标准化协方差的概念。

2.1.2 相关系数与数据关系的解读

相关系数不仅可以揭示变量之间的关系强度，还可以通过其正负号判断变量间关系的性质。正相关意味着一个变量值增加时，另一个变量的值也会相应增加；负相关则相反。然而，相关系数并不意味着因果关系。即使两个变量高度相关，也不能断定一个变量是导致另一个变量变化的原因。

了解相关系数的大小和符号，对于数据分析师来说，是在进行数据探索和变量选择时一个重要的步骤。例如，在金融领域中，股票的价格和市场指数之间的相关系数可以帮助投资者理解股票的表现是否与市场整体趋势一致。

2.2 相关系数的计算方法

2.2.1 MATLAB中计算相关系数的函数

在MATLAB中，计算两个向量间相关系数的函数是 corrcoef 。此函数不仅返回相关系数矩阵，还会返回每个变量的方差和标准差。若要计算两个变量X和Y的相关系数，可以使用以下代码：

X = [数据序列X];
Y = [数据序列Y];
[R, P] = corrcoef(X, Y);
rho = R(1, 2); % 相关系数矩阵中X与Y的相关系数

这里， corrcoef 函数返回的R是相关系数矩阵，而P是显著性测试的概率值。 R(1, 2) 返回的是X和Y之间的相关系数，它反映了X和Y的线性相关程度。

2.2.2 实际案例中的应用分析

假设我们有两个变量，分别是股票A的每日收益率和市场指数的每日变动百分比。我们可以使用 corrcoef 函数来计算它们的相关系数，以此分析股票A的表现是否与市场整体趋势相关。

% 假设的股票A每日收益率和市场指数每日变动百分比
stockA_returns = [0.01, -0.02, 0.03, -0.01, 0.04];
market_changes = [0.02, -0.03, 0.04, -0.02, 0.05];

% 计算相关系数
[R, P] = corrcoef(stockA_returns, market_changes);

% 显示相关系数
rho = R(1, 2);
fprintf('股票A收益率与市场指数变动的相关系数为: %.2f\n', rho);

执行上述代码后，我们可以得到股票A的收益率与市场指数变动的相关系数值，结合概率值P，可以进一步判断相关性是否显著。相关系数接近1或-1，表明它们之间存在强相关关系。然而，需要注意的是，相关性并不意味着因果性，所以该结果应该与更多的数据分析结果相结合，从而做出合理的投资决策。

在现实世界的案例中，金融分析师们还会使用更复杂的统计模型来深入分析股票之间的相关性，例如运用多元回归分析等方法。此外，市场环境的变化也可能影响股票之间的相关性，这些都需要在实践中细致地分析和考虑。

2.2.3 MATLAB的可视化功能及参数说明

MATLAB提供了多种可视化功能，可以将相关系数直观地表示出来。一种常用的方法是绘制散点图矩阵，它可以在一个图形中展示出多个变量间的相关性。

load carsmall; % 加载内置汽车数据集
scattermatrix([Weight, Horsepower]);

执行 scattermatrix 函数后，会生成一个散点图矩阵，其中包括重量（Weight）与马力（Horsepower）的散点图，通过散点的分布可以直观判断这两个变量之间的相关性。

另一种可视化方式是使用 pcolor 函数绘制相关系数矩阵的彩色热图。这个方法可以让我们快速识别数据集中变量间相关性的强度和方向。

R = corrcoef(carsmall{:,:}); % 计算所有变量间相关系数矩阵
pcolor(R); % 绘制相关系数的彩色热图
colorbar; % 显示颜色标尺

通过MATLAB的这些可视化工具，不仅可以帮助我们更直观地了解数据中变量间的关系，同时还可以辅助我们进一步发现数据中的潜在模式和趋势。相关系数与可视化工具的结合使用，是数据分析中非常强大的手段之一。

3. 偏斜度的计算与解释

3.1 偏斜度的数学原理

3.1.1 偏斜度的定义及其统计含义

偏斜度（Skewness）是衡量数据分布对称性的统计量，它描述了一个分布与正态分布相比偏离的程度和方向。具体来说，偏斜度是数据分布的三阶矩，其数学表达式可以表示为：

[ g_1 = \frac{E[(X - \mu)^3]}{\sigma^3} ]

其中，( E ) 是期望值运算符，( X ) 是随机变量，( \mu ) 是数据的均值，而 ( \sigma ) 是标准差。在实际应用中，偏斜度可以是正的、负的或接近于零。

正偏斜度 ：当偏斜度为正时，表示分布的右侧长尾部分比左侧的要长，意味着右侧有较多的高值数据，而左侧数据则集中在较小的范围内。这种分布称为正偏斜或右偏斜。
负偏斜度 ：如果偏斜度为负，则表明分布的左侧长尾部分比右侧的长，即左侧有较多的低值数据，而右侧数据较为集中。这种分布被称为负偏斜或左偏斜。
接近零的偏斜度 ：当偏斜度接近零时，表示数据分布接近对称，即左侧和右侧的尾部长度大致相同。

3.1.2 正、负偏斜度的数据分布特性

偏斜度不仅描述了数据的对称性，还反映了数据分布的不平衡性。数据集中值的位置也受到偏斜度的影响，这会对均值和中位数的关系产生影响。

正偏斜度 ：在正偏斜的数据集中，由于高值数据的影响，均值通常会向右侧移动，从而大于中位数。这表明数据集中的多数值可能集中在较低的一侧，而少数较大的值拉高了整体的平均水平。
负偏斜度 ：在负偏斜的数据集中，均值通常会因为低值数据的存在而向左侧移动，小于中位数。这种情况下，数据集中多数值集中在较高端，而较少的较低值拖低了整体平均水平。

3.2 偏斜度的实际计算与应用

3.2.1 MATLAB实现偏斜度计算的方法

在MATLAB中，计算一组数据的偏斜度非常直接，我们通常使用内置的 skewness 函数来获得所需的统计量。下面是一个示例代码块，用于计算一列数据的偏斜度，并对结果进行分析：

% 假设有一组数据
data = [5, 7, 9, 12, 13, 14, 15, 16, 18, 20];

% 使用MATLAB内置函数计算偏斜度
skewnessValue = skewness(data);

% 显示计算结果
disp(['偏斜度: ', num2str(skewnessValue)]);

在MATLAB中计算偏斜度的 skewness 函数会对数据进行内部处理，并返回偏斜度的值。在上述代码中， skewness 函数调用简单直观，通过传入数据向量即可完成偏斜度的计算。

3.2.2 偏斜度在数据分析中的作用

偏斜度作为一个重要的描述性统计量，在数据分析中扮演着关键角色。它可以揭示数据的分布特征，辅助研究者理解数据集的基本形态，例如是否存在异常值、数据是否对称分布等。

在实际应用中，偏斜度可以帮助研究人员确定数据是否适合进行某些统计分析。例如，在很多统计测试中，对数据的正态性有较为严格的要求。如果数据分布显著偏斜，可能需要对数据进行变换，如取对数或平方根，以减少偏斜度。

在金融领域，偏斜度常被用来分析投资收益的分布情况。正偏斜的收益分布可能意味着高风险投资，因为少数大回报拉高了平均收益，但大多数投资回报是较低的。反之，负偏斜的收益分布可能表明较为稳定的收益，虽然可能较少有高回报的机会。

偏斜度的计算和分析为数据分析提供了洞察力，有助于更准确地评估数据集的特征，为决策制定提供了科学依据。

4. 峰度的计算与解释

4.1 峰度的统计学概念

4.1.1 峰度的定义及理论背景

峰度是一个统计学中用来描述数据分布尖峭或扁平程度的量，它衡量的是数据分布的峰部相对于正态分布的尖峭程度。在统计学中，峰度的计算公式依赖于四阶中心矩，提供了数据分布形状的额外信息。高正峰度表示数据点在中心附近积聚得更密集，且尾部更长；而高负峰度则意味着数据点在中心附近分布得较为扁平，尾部较短。

4.1.2 峰度与数据分布的尖峭程度

为了理解峰度与数据分布的关系，假设一组数据是对称的并且以正态分布为中心。如果这组数据的峰度值高于正态分布的峰度值，我们说这组数据有“尖峰”（leptokurtic）分布，意味着数据分布的尾部较正态分布更长，中心峰更高更尖。相反，如果峰度值低于正态分布，那么数据呈现“低峰”（platykurtic）分布，数据在中间部分分布得更平缓，尾部也较短。

4.2 峰度的计算与分析

4.2.1 MATLAB中峰度的计算方法

MATLAB 提供了一系列函数来帮助我们计算峰度，其中最直接的是 kurtosis 函数。该函数可以计算出数据集的峰度值，其使用方法如下：

% 假设 data 是一个包含数据的向量
data = [1, 2, 3, 4, 5];
k = kurtosis(data);

上述代码计算了变量 data 中数据的峰度值。默认情况下， kurtosis 函数计算的是标准峰度，也就是说，它首先计算数据的标准差，然后将原始数据的峰度调整为单位标准差。如果希望得到样本峰度，可以添加一个额外的参数：

k = kurtosis(data, 'fisher');

这里， 'fisher' 选项指定了使用费舍尔（Fisher）定义的峰度计算方法，该方法提供了相对于样本大小的无偏估计。

4.2.2 峰度分析在实际问题中的应用

峰度分析是理解数据分布形状的一个重要工具。在金融市场中，股票收益的峰度分析可以揭示潜在的风险特征。一般情况下，股票收益的分布具有较高的峰度，这表示存在极端事件的可能性较高，即所谓的“肥尾效应”。

在信号处理领域，峰度被用来识别信号中的非高斯噪声。比如，在语音信号处理中，正常语音的波形与噪声的波形会有不同的峰度值，通过峰度的分析可以有效地识别和抑制噪声。

此外，峰度也被用于异常检测。在一个基本符合正态分布的数据集中，异常值会导致峰度值增加，因此，通过监测峰度的变化，可以及时发现数据集中的异常情况。

下面是一个简单的 MATLAB 代码片段，展示如何读取数据，计算其峰度，并将结果进行分析：

% 读取数据文件
data = readmatrix('financial_data.csv'); % 假设数据存储在 CSV 文件中

% 计算峰度
k = kurtosis(data);

% 分析结果
if k > 3
    disp('数据分布具有尖峰特性');
else
    disp('数据分布可能呈现低峰特性');
end

通过这样的分析，我们可以更好地理解数据背后的风险和潜在模式，从而做出更加明智的决策。

结合前面章节，本章节通过定义、计算以及分析的方式，介绍了峰度在统计学中的重要性及其实际应用。下一章节将继续探讨如何利用 MATLAB 进行更高级的统计分析。

5. 频率表与盒图的统计分析

5.1 频率表的创建与分析

5.1.1 频率表的概念及其重要性

在统计学中，频率表是一种展示数据分布情况的表格。它记录了每个数据点或者数据范围（即分组）出现的次数（频数）以及每个分组所占的百分比（频率）。频率表是数据分析的基石，因为它可以帮助我们快速理解数据的分布特征、集中趋势以及离散程度。

5.1.2 MATLAB中频率表的生成与解读

MATLAB提供了多种工具来生成频率表。我们可以使用 histcounts 函数计算数据点落入不同区间的数量，从而快速创建频率表。以下是一个生成频率表的MATLAB代码示例：

% 假设我们有一组数据data
data = randn(100, 1) * 10;

% 使用histcounts函数计算频率表
edges = -5:1:5; % 定义区间边界
counts = histcounts(data, edges);

% 创建频率表并显示
frequencyTable = table(edges(1:end-1), counts, 'VariableNames', {'Bin', 'Frequency'});

disp(frequencyTable);

在这个示例中，我们首先定义了一组服从正态分布的随机数 data ，然后通过 histcounts 函数计算了这些数据落入区间 [-5, -4, -3, ..., 5] 的频数。 edges 参数定义了区间的边界，返回的 counts 数组包含了每个区间内的数据点数。最后，我们使用 table 函数创建了一个包含区间边界和频数的频率表，并将其打印出来。

5.2 盒图的创建与解读

5.2.1 盒图的基本组成和信息

盒图（Box plot）是一种用来展示一组数据分散情况资料的统计图。它显示了数据的最小值、第一四分位数（Q1）、中位数（Q2）、第三四分位数（Q3）以及最大值。盒图还可以揭示数据的偏斜度和异常值，非常有助于快速评估数据集的分布特征。

5.2.2 MATLAB中绘制盒图的方法与技巧

在MATLAB中，我们可以利用 boxplot 函数快速绘制盒图。以下是一个简单的代码示例：

% 创建一些正态分布的随机数据
data1 = randn(100, 1);
data2 = 3 + randn(100, 1) * 2;

% 将数据组合成一个矩阵
data = [data1 data2];

% 绘制盒图
boxplot(data);

% 为盒图添加标题和轴标签
title('Boxplot of two data sets');
xlabel('Data sets');
ylabel('Values');

这段代码首先生成了两组正态分布的随机数据 data1 和 data2 ，然后将它们合并为一个矩阵 data 。使用 boxplot 函数，我们可以绘制出包含两组数据的盒图。 title 、 xlabel 和 ylabel 函数则为图表添加了标题和轴标签，以便更好地解释图中信息。

为了展示盒图揭示数据分布的能力，我们可以从数据中添加一些异常值，然后观察盒图的变化。例如：

% 在data2中添加一些异常值
data2 = [data2, 15];

% 重新绘制盒图
boxplot(data);

这会在 data2 所在的盒图部分显示异常值。盒图能够立即显示出这些异常值，并且直观地表达它们与数据集其他部分的差异。通过这种方式，盒图作为一种强有力的工具，可以辅助我们进行数据集的初步探索和统计分析。

本文还有配套的精品资源，点击获取