选择数据集
乳腺癌
编程参考资料:
针对Breast-Cancer(乳腺癌)数据集
数据集划分方法
他人答案
自己写代码主要还是熟悉怎么调包,练练手先。写了乳腺癌的代码,跑了发现两个问题:
1.10-fold CV比不过别人[普通的划分方法](https://www.bbsmax.com/A/QW5YW18Mzm/)。
2.LOO估计出来的正确率为0

以下是乳腺癌的原代码,别急着用
#DATASET#1:乳腺癌
import numpy as np
import pandas as pd
from sklearn.metrics import classification_report
#以下代码参考https://www.bbsmax.com/A/QW5YW18Mzm/
# 创建每列名字
columnNames = [
'Sample code number',
'Clump Thickness',
'Uniformity of Cell Size',
'Uniformity of Cell Shape',
'Marginal Adhesion',
'Single Epithelial Cell Size',
'Bare Nuclei',
'Bland Chromatin',
'Normal Nucleoli',
'Mitoses',
'Class'
]
data = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',names = columnNames)#如果是LOO还要补出参数: delim_whitespace=True
# 清洗空缺数据
data = data.replace(to_replace = "?", value = np.nan)#将丢失数据代替成 "?"
data = data.dropna(how = 'any')# 然后丢掉他们
X = data.iloc