41、运行伪巡回展示,对所发现的结构进行评论。
需按照要求运行伪巡回展示,观察数据投影中的结构特点,如是否存在 聚类 、 空洞 、 离群点 等,再结合实际情况对这些结构进行描述和分析。
42、将伪大巡游方法应用于以下数据集并对结果进行评论。将结果与使用大巡游方法得到的结果进行比较。a. 环境数据集 b. 酵母数据集 c. 鸢尾花数据集 d. 波塞数据集 e. 头骨数据集 f. 垃圾邮件数据集 g. 花粉数据集 h. 基因表达数据集
要完成该任务,可按照伪大巡游的实现步骤进行操作,包括:
- 设置 ωi 为无理数
- 确定步长 t
- 根据公式求向量
- 投影数据到平面
- 显示投影点
使用 MATLAB 对每个数据集进行操作,并观察和分析结果,再与大巡游的结果进行对比。
例如,对于环境数据集,MATLAB 代码如下:
% 以环境数据集为例
load environmental
x = environmental;
maxit = 10000;
[n,p] = size(x);
% 若p为奇数,对数据进行扩充
if mod(p,2) == 1
x = [x zeros(n,1)];
end
% 后续按照伪大巡游步骤实现
% 1. 设置 ωi 和步长 t
% 2. 求向量
% 3. 投影数据
% 4. 显示投影点
% 5. 重复步骤 2 - 4
对其他数据集也采用类似的操作,最后根据观察到的投影结果进行评论,并与大巡游结果对比。
43、对数据集(包括environmental、yeast、iris、posse data sets、skulls、spam、pollen、gene expression data sets)应用插值游览法。
需从两个子空间开始,通过测地插值路径从一个子空间到另一个子空间,并显示投影数据,将其应用到数据集(包括:
- environmental
- yeast
- iris
- posse data sets
- skulls
- spam
- pollen
- gene expression data sets
),并对结果进行分析和评论。
44、不一致系数可用于确定层次聚类中的簇数量。它将层次结构中某条链接的长度与相邻链接的平均长度进行比较。如果合并操作与周围的操作一致,那么它的不一致系数就会较低。较高的不一致系数表明合并操作不一致,从而暗示存在簇。cluster函数的一个参数可以是与截断参数相对应的不一致系数阈值。树状图的切割点出现在链接长度大于该值的位置。MATLAB有一个名为inconsistent的独立函数,它会返回一个矩阵形式的信息,其中最后一列包含不一致系数。现在要求生成一些包含两个分离良好的簇的二维数据,应用合适的层次聚类方法并构建树状图。从inconsistent函数中获取输出,并使用这些值为cluster函数的截断参数获取一个阈值。已知只有两个簇,判断不一致系数能否给出正确的结果。
# 层次聚类与不一致系数分析
以下是根据题目要求进行的操作步骤及对应的 MATLAB 实现:
## 1. 生成包含两个分离良好的簇的二维数据
```matlab
cluster1 = mvnrnd([0, 0], [1, 0; 0, 1], 50);
cluster2 = mvnrnd([10, 10], [1, 0; 0, 1], 50);
X = [cluster1; cluster2];
2. 应用合适的层次聚类方法并构建树状图
Y = pdist(X);
Z = linkage(Y);
dendrogram(Z);
3. 调用 inconsistent 函数获取输出并确定 cluster 函数截断参数的阈值
I = inconsistent(Z);
threshold = max(I(:, end) * 0.8);
4. 根据已知的两个簇,判断不一致系数是否能给出正确结果
idx = cluster(Z, 'inconsistent', threshold);
correct = length(unique(idx)) == 2;
if correct
disp('不一致系数给出了正确的结果。');
else
disp('不一致系数未给出正确的结果。');
end
##45、现在生成具有两个明显分离的簇的二元正态随机变量。应用间隙统计量程序,并绘制每个k值对应的预期间隙统计量和观测值。估计的簇数量是多少?
需要按照以下步骤进行操作来获取结果:
1. 生成具有两个明显分离的簇的二元正态随机变量数据集。
2. 按照间隙统计量方法的步骤进行操作:
- 对给定数据集进行聚类,得到分区 $ k =

最低0.47元/天 解锁文章
7105

被折叠的 条评论
为什么被折叠?



