实践分析
(一)与棒球数据集有关的;练习
1)首先,过滤掉所有击球数少于100的击球手。接下来,使用z分数标准化所有的数值变量。
2)现在,假设我们有兴趣根据数据集中的其他数值变量来估计本垒打的数量。所有其他数值变量都是我们的预测变量。进行主成分分析
3)根据a.特征值准则需要提取多少分量?b.方差比例解释标准?
4)使用讲过的四种方法确定主成分数目
(二)使用wine_quality_training数据集,
可在教科书网站上找到,用于剩余的练习。数据包括一些来自葡萄牙的葡萄酒的化学数据。目标变量是质量。记住在维度缩减分析中忽略目标变量。除非另有说明,只能使用白葡萄酒进行分析
1)规范预测因素。
2).构建预测因子的矩阵图。提供一个表,显示每个预测器与其他预测器的相关系数。
3)主成分分析应用到预测,使用讲过的四种方法确定主成分数目

协方差阵中的Q阵就表示了我们想要找的最佳的坐标系转换,它能够使得转换后的每个轴的方差最大化中间的对角线就是新坐标系中的不同轴上的方差,并且从大到小排列,Q的每一列就是对应的坐标轴
这里需要选取home run作为变量,剩下的作为研究对象进行PCA操作。
选择安装模块psych后,进行principal(train.house[,c(2:9)],nfactors=8,rotate="none", scores=TRUE) 的类似操作就可以得到PCA的具体内容。


图4-1 过滤之前的数据图


图4-2 去除小于100的变量后的结果图
采用两个方法,一个是手动选择,一个是编程选择。方法1d2 <- ww[-


图4-10 主成分的结果展示图

图4-11 贡献率的曲线图

这篇博客探讨了体育数据分析中的棒球数据,通过过滤击球手和z分数标准化数值变量进行预处理。接着,利用主成分分析(PCA)预测本垒打数量,并依据特征值和方差比例解释确定主成分数目。同时,PCA也被应用于葡萄酒品质预测,通过相关系数矩阵和主成分分析来理解预测因子间的关系。PCA方法的选择包括特征值准则和其他四种方法。博客还展示了PCA结果和贡献率曲线,强调了PCA在多元数据分析中的应用。
725

被折叠的 条评论
为什么被折叠?



