数据集来自美国威斯康星州的乳腺癌诊断数据集. 由于数据特征较多, 本例使用相关性分析与主成分分析两种方法进行降维了处理, 再通过SVM支持向量机模型对数据进行了分类.
一. 数据预处理
加载数据后对数据进行探索, 可以看到数据可以分为5类:
(一) ID
(二) diagnose
诊断结果. 其中'B'代表良性, 包含357例; 'M'代表恶性, 包含212例.
(三) 包含mean的数据
| radius_mean | 半径平均值 |
| texture_mean | 文理平均值 |
| perimeter_mean | 周长平均值 |
| area_mean | 面积平均值 |
| smoothness_mean | 平滑程度平均值 |
| compactness_mean | 紧密度平均值 |
| concavity_mean | 凹度平均值 |
| concave points_mean | 凹缝平均值 |
| symmetry_m |

这篇博客介绍了如何利用SVM进行乳腺癌检测,通过美国威斯康星州的乳腺癌数据集,进行了数据预处理,包括相关性分析和主成分分析(PCA)两种降维方法。相关性分析选择了radius_mean和compactness_mean作为代表特征,PCA降维保留了98%以上的数据贡献率。最终,PCA降维后的模型得分0.9357,优于手动降维的0.9298。
最低0.47元/天 解锁文章
2910

被折叠的 条评论
为什么被折叠?



