前面我们做的关于决策树的代码实现是对一个数据集进行划分为训练集和测试集,这篇使用的训练集和测试集是已经帮你划分好的存放在二个文件里的。
这里我们使用的训练集和测试集都是关于乳腺癌的数据集,但是和前面我们使用的乳腺癌数据集有点不一样,前面的是二分类的问题:良性和恶性,我们这是四分类问题,类别是乳腺癌的四个类型(训练集train/feats.csv的最后一列)。
下面是我们的测试集和训练集:其中images文件里包含了好多个子文件夹,每个子文件夹里又分别有好多张病人的乳腺癌超声波诊断图像,feats.csv里存放的是病人的乳腺癌临床诊断数据。
训练集train/feats.csv中的部分临床诊断数据:
测试集test/feat.csv 中的部分临床诊断数据:
我们现在使用决策树进行分类预测,这里的id是病人的id,预测病人得的是那种类型的乳腺癌,最后输出病人id和对应的乳腺癌种类的csv文件。
#决策树分类 https://blog.youkuaiyun.com/bjjoy2009/articl