4、机器学习模型训练、评估与调优全解析

最新推荐文章于 2025-12-04 23:50:06 发布

julia4scientist

最新推荐文章于 2025-12-04 23:50:06 发布

阅读量40

点赞数

CC 4.0 BY-SA版权

分类专栏： Keras深度学习实战精讲文章标签：机器学习模型评估数据集划分

本文链接：https://blog.youkuaiyun.com/julia4scientist/article/details/154675175

Keras深度学习实战精讲专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习模型训练、评估与调优全解析

1. 数据集划分方法

在机器学习中，数据集划分是重要的一步，常见的划分方法有两种：
- 随机采样 ：简单地随机抽取数据，直到达到所需的数据点数。这通常是像 scikit-learn 的 train_test_split 函数的默认方法。
- 分层采样 ：每个子总体独立采样，子总体由目标变量决定。在目标变量高度偏向某一值的二元分类等情况下，分层采样更有优势，因为随机采样可能无法在训练和测试数据集中提供两种值的数据点。

2. 模型评估指标

有效的模型评估不仅要考虑模型性能，还要结合实际问题。以股票买卖预测为例，若模型总是预测买入，可能并非好结果，因为资金并非无限，包含一些卖出预测可能更好。常见的分类任务评估指标如下：
|指标|定义|公式|适用情况|
| ---- | ---- | ---- | ---- |
|准确率（Accuracy）|正确预测的数量除以总预测数量|准确率 = 正确预测数 / 总预测数|类别平衡时适用，类别高度偏斜时可能产生误导|
|精确率（Precision）|真正阳性结果的数量除以模型预测的阳性结果总数（真阳性和假阳性）|精确率 = 真正阳性数 / (真正阳性数 + 假阳性数)|关注预测为正例的准确性|
|召回率（Recall）|正确的阳性结果数量除以实际所有阳性结果数量|召回率 = 真正阳性数 / (真正阳性数 + 假阴性数)|关注模型找到所有正例的能力|
|F1分数（F1 Score）|综合精确率和召回率，