驴体重预测模型构建与评估
1. 数据预处理与划分
在进行数据分析之前,我们对数据进行了清洗和质量检查,移除了数据框中的三个异常观测值。接着,为了后续的模型评估,我们将数据划分为训练集和测试集。划分测试集和训练集是数据分析中的一个最佳实践,应在详细探索数据之前进行,这样可以确保测试集不参与模型决策过程,从而更真实地模拟模型在新数据上的表现。
我们采用 80/20 的划分比例,即 80%的数据用于探索和构建模型,20%的数据用于评估模型。具体操作步骤如下:
1. 随机打乱数据框的索引:
import numpy as np
np.random.seed(42)
n = len(donkeys)
indices = np.arange(n)
np.random.shuffle(indices)
n_train = int(np.round((0.8 * n)))
- 将前 80%的数据分配给训练集,剩余 20%的数据分配给测试集:
train_set = donkeys.iloc[indices[:n_train]]
test_set = donkeys.iloc[indices[n_train:]]
2. 数据探索
接下来,我们对训练数据进行探索,寻找有助于构建模型的特征关系和分布。
- 分类特征与体重的关系 :我们首先查看年龄、性别和身体状况
超级会员免费看
订阅专栏 解锁全文
1852

被折叠的 条评论
为什么被折叠?



