MATLAB数据分析与可视化实践

原创

于 2025-09-14 12:25:34 发布 · 840 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#MATLAB # 数据分析 # 聚类

1、在MATLAB中，函数factoran包含获取因子得分估计值的选项。假设有一个数据集stocks，尝试运行代码[lam,psi,T,stats,F]=factoran(stocks,3,’rotate’,’promax’); 请问因子得分包含在哪个变量中，以及如何查看这些得分？

可以在 MATLAB 中运行代码

[lam,psi,T,stats,F] = factoran(stocks,3,'rotate','promax');

得到包含因子得分的变量 F ，然后使用 plotmatrix 函数查看这些因子得分。

2、对聚类结果应用间隙统计量方法。是否有证据表明存在不止一个组？根据间隙统计量，存在多少个聚类？假设在另一个分析中，莫耶纳图形规则表明有3个聚类，将间隙统计量的结果与之进行比较。

估计的聚类数量是2，这与正确的癌症类型数量相对应。
间隙统计量方法的结果表明有证据拒绝只有一个组的假设。
可与另一个分析结果相比较，在该分析中，莫耶纳图形规则表明有3个聚类。

3、对以下数据集应用完整的基于模型的聚类程序。若数据维度较高，可先进行降维处理。最后评估聚类结果。数据集包括：a. 头骨数据集 b. 麻雀数据集 c. 奥朗赛数据集（两种分类） d. BPM数据集 e. 基因表达数据集

可按以下步骤操作：

使用无约束模型，对数据应用基于模型的凝聚式聚类程序，为任意给定的簇数量提供数据分区。
选择一个模型 M。
选择簇的数量或分量密度 c。
利用凝聚式基于模型的聚类结果（步骤1）找到具有 c 个组的分区。
利用此分区，找到每个簇的混合系数、均值和协方差。协方差根据步骤2中选择的模型进行约束。
使用选定的 c（步骤3）和初始值（步骤5），应用 EM 算法以获得最终估计值。
计算此 c 和 M 值下的 BIC 值。
回到步骤3选择另一个 c 值。
回到步骤2选择另一个模型 M。
选择对应最高 BIC 的“最佳”配置（簇的数量 c 和协方差矩阵的形式）。

若数据维度较高，先进行降维处理，最后评估聚类结果。

4、使用 `polyval` 函数和1次多项式生成一些数据。使用 `randn` 函数为这些点添加一些小的随机噪声。使用 `polyfit` 函数拟合一个1次多项式。在 `x` 值范围的任一端添加一个离群点。将这些新数据再拟合为一条直线。绘制这两条直线以及数据的散点图，并对两条拟合直线的差异进行评论。

可按照以下步骤操作：

用 polyval 和 1 次多项式生成数据；
用 randn 添加随机噪声；
用 polyfit 拟合 1 次多项式；
在 x 范围两端加离群点；
重新拟合直线；
绘制两条直线和散点图；
分析两条拟合直线的差异，通常离群点会使拟合直线发生较大偏移。

5、编写MATLAB代码，使用曲面图（surf plot）绘制一个二维数据的直方图。已知有二维数据矩阵x，以及两个用于划分网格的参数nb1和nb2，需要根据x的第一列和第二列数据范围生成网格XX和YY，同时有表示柱子高度的矩阵Z。代码如下：% 绘制为曲面图。% 获取合理的坐标轴。[XX,YY]=… meshgrid(linspace(min(x(:,1)),max(x(:,1)),nb1),… linspace(min(x(:,2)),max(x(:,2)),nb2)); % Z 是柱子的高度。surf(XX,YY,Z)

可将上述代码在MATLAB中运行以完成用曲面图绘制直方图的操作。需确保变量 x 、 nb1 、 nb2 和 Z 已正确定义和赋值。

6、生成一些标准正态分布数据，样本大小分别为 n = 30、n = 50 和 n = 100。使用 boxp 函数先绘制一组普通箱线图，然后绘制可变宽度箱线图。

按照以下步骤实现：

1. 生成不同样本大小的标准正态分布数据并放入元胞数组：
   ```matlab
   X{1} = randn(30,1);
   X{2} = randn(50,1);
   X{3} = randn(100,1);
   ```

2. 绘制普通箱线图：
   ```matlab
   boxp(X);
   ```

3. 绘制可变宽度箱线图：
   ```matlab
   boxp(X,'vw');
   ```