经典模型实验与分析
1. 模型性能与PCA的关系
在模型训练和评估过程中,特征向量的大小对性能差异的影响并非主要因素。例如,将784个特征通过主成分分析(PCA)降维至15个特征,性能提升并非达到50倍(784除以15约为50)。线性支持向量机(SVM)的训练速度仅次于随机森林,但执行时间极短。许多模型类型都具有训练时间长、分类(推理)时间短的特点,简单模型如最近质心或朴素贝叶斯则训练和使用都很快,不过一般来说,“训练慢、使用快”是较为常见的情况,神经网络更是如此。
使用PCA除了对朴素贝叶斯分类器有提升外,会损害其他模型的性能。为了探究PCA组件数量变化对模型的影响,进行了如下实验。
1.1 PCA组件实验
实验步骤如下:
1. 加载MNIST数据集并计算其归一化版本,此版本将用于PCA。
2. 设置结果存储变量, pcomp 存储从10到780(以10为步长)的PCA组件数量。
3. 循环遍历PCA组件数量,找到所需组件数量 p ,并将数据集映射到实际训练和测试数据集 xtrain 和 xtest 。
4. 存储当前主成分数量解释的数据集实际方差 tv ,后续用于绘制曲线,查看组件数量覆盖数据集大部分方差的速度。
5. 使用当前特征数量训练和测试高斯朴素贝叶斯分类器,调用 run 函数(与之前代码类似,但返回得分、训练时间和测试时间),将结果存储在 nb 数组中。
6. 对随机森林和线性
经典模型性能分析与应用指南
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



