乳腺癌数据集的经典模型实验与超参数调优
1. 模型得分与随机因素影响
1.1 初始模型得分
在对乳腺癌数据集进行模型评估时,我们得到了如下的初始得分:
| 模型类型 | 得分 |
| — | — |
| Nearest Centroid | 0.9649 |
| 3 - NN classifier | 0.9912 |
| 7 - NN classifier | 0.9737 |
| Naïve Bayes (Gaussian) | 0.9825 |
| Decision Tree | 0.9386 |
| Random Forest (5) | 0.9474 |
| Random Forest (50) | 0.9649 |
| Linear SVM (C = 1) | 0.9737 |
| RBF SVM (C = 1, γ = 0.03333) | 0.9825 |
这里部分得分出现了变化,原因在于随机森林本身具有随机性,每次运行结果可能不同;决策树在 sklearn 中会随机选择特征并寻找最佳分割点,不同运行也会产生不同的树。而其他算法对于给定的训练数据集通常只会产生一个模型,不过 sklearn 中的 SVM 实现使用了随机数生成器,有时不同运行也会有细微差异。
1.2 随机分割数据的影响
为了研究训练集和测试集分割的影响,我们在分割数据前对整个数据集的顺序进行随机化,同时固定伪随机数种子,使每次运行数据集的顺序相同。具体操作是在代码中插入以下内容:
超级会员免费看
订阅专栏 解锁全文
1228

被折叠的 条评论
为什么被折叠?



