9、基于k - NN算法的乳腺癌诊断

基于k - NN算法的乳腺癌诊断

1. k - NN算法简介

基于实例的学习器不构建模型,因此k - NN算法属于非参数学习方法,即不会学习数据的参数。非参数方法虽限制了我们理解分类器如何使用数据的能力,但能让学习器发现自然模式,而非强行将数据套入预设且可能有偏差的函数形式。尽管k - NN分类器被认为是“懒惰”的,但它功能强大,可用于自动化癌症筛查过程。

2. 乳腺癌诊断实例

乳腺癌的常规筛查能在症状显现前诊断和治疗疾病。早期检测需检查乳腺组织有无异常肿块,若发现肿块则进行细针穿刺活检,提取细胞样本,由临床医生在显微镜下判断肿块是良性还是恶性。若机器学习能自动识别癌细胞,将提高检测效率,让医生有更多时间治疗疾病,还能消除人为因素的主观性,提高检测准确性。

3. 数据收集

使用来自UCI机器学习库的威斯康星乳腺癌诊断数据集,该数据集由威斯康星大学的研究人员提供,包含乳腺肿块细针穿刺数字化图像的测量值,代表数字图像中细胞核的特征。
- 数据集包含569个癌症活检样本,每个样本有32个特征。
- 一个特征是患者的唯一标识符,一个是癌症诊断结果(“M”表示恶性,“B”表示良性),另外30个是数值型的实验室测量值。
- 这30个数值测量值包括10种不同细胞核特征的均值、标准误差和最大值,具体特征如下:
- 半径
- 纹理
- 周长
- 面积
- 光滑度
- 紧凑度
- 凹陷度
- 凹陷点数
- 对称性
- 分形维数

4. 数据探索与准备
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值