数据集获取
点击获取数据集
右键选择breast-cancer-wisconsin.data将目标另存为data.csv
或者利用python代码在线读取
data=pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data')
本文选择另存到本地
数据处理
在网站上有关于数据的说明:
数据说明
截取部分如下:
总共有699个样本数据,其中16个有数据缺少。
每一行11个特征值,去掉第一个id number 最后一个用于分类的特征,剩余9个有用特征,也就是要求解的权重w是一个(9,1)维矩阵
首先读取CSV文件,去掉缺失值,分离训练集和测试集