乳腺癌与皮肤病变的机器学习诊断分析
1. 乳腺癌诊断的机器学习方法
1.1 分类器介绍
在特征选择之后,分类器会利用相关特征将乳腺肿瘤分为良性或恶性。常见的机器学习分类器包括朴素贝叶斯(NB)、决策树(DT)、K近邻(KNN)、支持向量机(SVM)、随机森林和逻辑回归等。本研究主要评估了随机森林、逻辑回归和决策树这三种分类器。
- 逻辑回归 :将线性回归模型进行转换,以便对二元变量进行概率建模。它是一种有监督的程序,用于预测目标变量的可能性。由于目标变量的性质是二元的,所以只有两个有效类别,记录编码为1或0。逻辑回归版本将P(Y = 1)预测为X的函数。
- 决策树 :是一种流行的无监督方法,用于分类和预测。它以实例的递归分区形式表示,其中叶子代表类别标签,分支代表特征形式的结果。这是一种自上而下的方法,将数据的每个结果划分为子集,作为项目质量和值之间的映射。
- 随机森林(RF) :基于多个决策树,将它们合并以产生准确和稳定的预测。它是从一定量的随机性中生长出来的分类器集合,定义为决策树的随机化集合。每个观察值都会输入到每个决策树中,最终结果是每个观察值最常见的结果。
1.2 实验设置
实验使用Jupyter Notebook进行模拟,在WDBC数据集上对乳腺肿瘤进行良性或恶性分类。采用Mann - Whitney U检验进行特征选择,使用社会科学统计软件包(SPSS),置信区间为95%,显著性水平选择小于0.001。
| Feature | Asymptotic significance |
超级会员免费看
订阅专栏 解锁全文
34

被折叠的 条评论
为什么被折叠?



