机器学习模型训练、验证、测试数据分布的初步评估

本文介绍了在构建机器学习模型时,如何通过分析训练、验证和测试数据中类别比例、指标分布以及连续变量的区间频数来初步判断模型是否存在过拟合问题。方法包括检查二分类模型的正负样本占比,观察多类别和二类别指标的分布,以及对连续变量进行区间划分并绘制频数柱状图。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        当构建机器学习模型时,当测试数据(一般近期时间维度)结果与训练、验证数据结果差异较大时,一般认为是模型存在过拟合问题。除此之外,近期的测试数据可能与模型训练数据本身就存在分布的差异,也会导致模型效果的下降。

        下面提出一些初步判定模型分布的方法。

   一、二分类模型,检查y标签是否存在较大差异,主要观察正样本占比:

# 阳性案件情况对比
print('训练数据:',len(model_train_y))
print('验证数据:',len(model_val_y))
print('测试数据:',len(model_test_y))
print('-----------')
print('训练数据阳性:', model_train_y.sum())
print('验证数据阳性:', model_val_y.sum())
print('测试数据阳性:',model_test_y.sum())
print('-----------')
print('训练数据阳性占比:', model_train_y.sum() / len(model_train_y))
print('验证数据阳性占比:', model_val_y.sum() / len(model_val_y))
print('测试数据阳性占比:',model_test_y.sum() / len(model_test_y))

二、观察入参X指标的分布

        通过模型输出重点指标排序情况

# 模型特征重要性输出
clf_v4.feature_importances_

1、对于多类别型指标,直接按照类别画柱状图,观察柱状图差异分布是否存在差异

# 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值