基于k - NN算法的乳腺癌诊断
1. k - NN算法简介
基于实例的学习器不构建模型,因此k - NN算法属于非参数学习方法,即不会学习数据的参数。非参数方法虽限制了我们理解分类器如何使用数据的能力,但能让学习器发现自然模式,而非强行将数据套入预设且可能有偏差的函数形式。尽管k - NN分类器被认为是“懒惰”的,但它功能强大,可用于自动化癌症筛查过程。
2. 乳腺癌诊断实例
乳腺癌的常规筛查能在症状显现前诊断和治疗疾病。早期检测需检查乳腺组织有无异常肿块,若发现肿块则进行细针穿刺活检,提取细胞样本,由临床医生在显微镜下判断肿块是良性还是恶性。若机器学习能自动识别癌细胞,将提高检测效率,让医生有更多时间治疗疾病,还能消除人为因素的主观性,提高检测准确性。
3. 数据收集
使用来自UCI机器学习库的威斯康星乳腺癌诊断数据集,该数据集由威斯康星大学的研究人员提供,包含乳腺肿块细针穿刺数字化图像的测量值,代表数字图像中细胞核的特征。
- 数据集包含569个癌症活检样本,每个样本有32个特征。
- 一个特征是患者的唯一标识符,一个是癌症诊断结果(“M”表示恶性,“B”表示良性),另外30个是数值型的实验室测量值。
- 这30个数值测量值包括10种不同细胞核特征的均值、标准误差和最大值,具体特征如下:
- 半径
- 纹理
- 周长
- 面积
- 光滑度
- 紧凑度
- 凹陷度
- 凹陷点数
- 对称性
- 分形维数
超级会员免费看
订阅专栏 解锁全文
4027

被折叠的 条评论
为什么被折叠?



