利用最近邻实现乳腺癌诊断:k-NN算法的应用与优化
1. 懒学习与k-NN算法概述
在机器学习领域,基于最近邻方法的分类算法被视为懒学习算法。这是因为从技术层面讲,此类算法不存在抽象过程,完全跳过了抽象和泛化步骤,与传统学习的定义有所不同。严格意义上,懒学习器并非真正在学习,它只是逐字存储训练数据,这使得训练阶段能快速完成,但预测过程相对较慢。由于严重依赖训练实例而非抽象模型,懒学习也被称为基于实例的学习或机械学习。
懒学习属于非参数学习方法,即不学习数据的参数。虽然这种方法限制了我们理解分类器如何使用数据的能力,但它仍能做出有用的预测,并且能让学习器找到自然模式,而非强行将数据套入预设的、可能有偏差的函数形式。
对于名义特征,如果是有序的(如温度),除了虚拟编码,还可以对类别进行编号并归一化。例如,将冷、温、热分别编号为1、2、3,归一化后为0、0.5、1。不过,这种方法仅适用于类别间步长相等的情况。像收入类别(贫困、中产阶级、富裕),由于类别间差异不相等,虚拟编码是更安全的选择。
2. 利用k-NN算法诊断乳腺癌
2.1 数据收集
我们使用来自UCI机器学习库的威斯康星乳腺癌(诊断)数据集,该数据由威斯康星大学的研究人员捐赠,包含对乳腺肿块细针穿刺数字化图像的测量值,代表数字图像中细胞核的特征。
该数据集有569个癌症活检样本,每个样本有32个特征。其中一个是识别编号,一个是癌症诊断结果(“M”表示恶性,“B”表示良性),另外30个是数值型实验室测量值,包括数字化细胞核10种不同特征的均值、标准误差和最大值(如半径、纹理、面积、平滑度和紧凑度)。
超级会员免费看
订阅专栏 解锁全文
4010

被折叠的 条评论
为什么被折叠?



