16、模型评估与超参数调优的最佳实践

模型评估与超参数调优的最佳实践

1. 加载威斯康星乳腺癌数据集

威斯康星乳腺癌数据集包含 569 个恶性和良性肿瘤细胞的示例。数据集的前两列分别存储示例的唯一 ID 号和相应的诊断结果(M = 恶性,B = 良性),第 3 - 32 列包含 30 个实值特征,这些特征是从细胞核的数字化图像中计算得出的,可用于构建模型来预测肿瘤是良性还是恶性。

可以通过以下三个简单步骤读取数据集并将其拆分为训练集和测试集:
1. 使用 Pandas 直接从 UCI 网站读取数据集:

import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/' 
                 'machine-learning-databases' 
                 '/breast-cancer-wisconsin/wdbc.data', 
                 header=None)

如果离线工作或 UCI 服务器暂时不可用,可以从本地目录加载数据集,将上述代码替换为:

df = pd.read_csv( 
    'your/local/path/to/wdbc.data', 
    header=None)
  1. 将 30 个特征分配给 NumPy 数组 X ,并使用 LabelEncoder
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值