机器学习模型训练、评估与调优全解析
1. 数据集划分方法
在机器学习中,数据集划分是重要的一步,常见的划分方法有两种:
- 随机采样 :简单地随机抽取数据,直到达到所需的数据点数。这通常是像 scikit-learn 的 train_test_split 函数的默认方法。
- 分层采样 :每个子总体独立采样,子总体由目标变量决定。在目标变量高度偏向某一值的二元分类等情况下,分层采样更有优势,因为随机采样可能无法在训练和测试数据集中提供两种值的数据点。
2. 模型评估指标
有效的模型评估不仅要考虑模型性能,还要结合实际问题。以股票买卖预测为例,若模型总是预测买入,可能并非好结果,因为资金并非无限,包含一些卖出预测可能更好。常见的分类任务评估指标如下:
|指标|定义|公式|适用情况|
| ---- | ---- | ---- | ---- |
|准确率(Accuracy)|正确预测的数量除以总预测数量|准确率 = 正确预测数 / 总预测数|类别平衡时适用,类别高度偏斜时可能产生误导|
|精确率(Precision)|真正阳性结果的数量除以模型预测的阳性结果总数(真阳性和假阳性)|精确率 = 真正阳性数 / (真正阳性数 + 假阳性数)|关注预测为正例的准确性|
|召回率(Recall)|正确的阳性结果数量除以实际所有阳性结果数量|召回率 = 真正阳性数 / (真正阳性数 + 假阴性数)|关注模型找到所有正例的能力|
|F1分数(F1 Score)|综合精确率和召回率,
超级会员免费看
订阅专栏 解锁全文
726

被折叠的 条评论
为什么被折叠?



