一、算法思想
威斯康辛乳腺癌数据集:威斯康星州乳腺癌数据集包含699个细针抽吸活检的样本单元,其中 458个为良性样本单元,241个为恶性样本单元。对于每一个样本来说,另外九个变量是与判别恶性肿瘤相关的细胞特征。这些细胞特征得分为1(最接近良性)至10(最接近病变)之间的整数。
这十个变量分别是:肿块厚度(Clump Thickness)、细胞大小的均匀性(Uniformity of Cell Size)、细胞形状的均匀性(Uniformity of Cell Shape)、边际附着力(Marginal Adhesion)、单个上皮细胞的大小(Single Epithelial Cell Size)、裸核(Bare Nuclei)、乏味染色体(Bland Chromatin)、正常核(Normal Nucleoli)、有丝分裂(Mitoses)、Class代表类别(类型变量:2 for benign, 4 for malignant)。
任一变量都不能单独作为判别良性或恶性的标准,建模的目的是找到九

最低0.47元/天 解锁文章
3904

被折叠的 条评论
为什么被折叠?



