模型评估与超参数调优的最佳实践
1. 加载威斯康星乳腺癌数据集
威斯康星乳腺癌数据集包含 569 个恶性和良性肿瘤细胞的示例。数据集的前两列分别存储示例的唯一 ID 号和相应的诊断结果(M = 恶性,B = 良性),第 3 - 32 列包含 30 个实值特征,这些特征是从细胞核的数字化图像中计算得出的,可用于构建模型来预测肿瘤是良性还是恶性。
可以通过以下三个简单步骤读取数据集并将其拆分为训练集和测试集:
1. 使用 Pandas 直接从 UCI 网站读取数据集:
import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/'
'machine-learning-databases'
'/breast-cancer-wisconsin/wdbc.data',
header=None)
如果离线工作或 UCI 服务器暂时不可用,可以从本地目录加载数据集,将上述代码替换为:
df = pd.read_csv(
'your/local/path/to/wdbc.data',
header=None)
- 将 30 个特征分配给 NumPy 数组
X,并使用LabelEncoder
超级会员免费看
订阅专栏 解锁全文
2421

被折叠的 条评论
为什么被折叠?



