基于k - NN算法的乳腺癌诊断
1. k - NN算法与非参数学习
基于实例的学习器不构建模型,因此属于非参数学习方法。非参数学习方法不生成关于底层数据的理论,这限制了我们理解分类器如何使用数据的能力,但它能让学习器找到自然模式,而非将数据强行套入预设且可能有偏差的函数形式。虽然k - NN分类器被认为是“懒惰”的,但它功能强大,可用于自动化癌症筛查。
2. 乳腺癌诊断实例
乳腺癌的常规筛查能在出现明显症状前诊断和治疗疾病。早期检测过程包括检查乳腺组织是否有异常肿块,若发现肿块,会进行细针穿刺活检,提取细胞样本,医生再在显微镜下检查以确定肿块是恶性还是良性。若机器学习能自动识别癌细胞,将给医疗系统带来巨大益处,提高检测效率,让医生有更多时间治疗疾病,还能通过消除人为的主观因素提高检测准确性。
3. 数据收集
使用来自UCI机器学习库的威斯康星乳腺癌诊断数据集。该数据集包含569个癌症活检样本,每个样本有32个特征,其中一个是识别编号,一个是癌症诊断结果(“M”表示恶性,“B”表示良性),另外30个是数值型的实验室测量值。这30个数值测量值是数字化细胞核10种不同特征的均值、标准误差和最大值,包括:
- 半径
- 纹理
- 周长
- 面积
- 光滑度
- 紧凑度
- 凹陷度
- 凹陷点数
- 对称性
- 分形维度
4. 数据探索与准备
4.1 数据导入
若要跟随操作,从Packt网站下载 wisc_bc_data.csv 文件并保存到R工
k-NN算法在乳腺癌诊断中的应用
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



