第五章 信用评分模型的开发流程

信用评分模型开发中,样本的选择至关重要。确保样本代表性、充分性、时效性、排除性和表现推测性,如随机抽样和分类抽样,保证模型预测效果。关注样本量与类别平衡,以及观察期和表现期的时效关系,排除特定群体,全面考虑各类申请人风险。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、模型的样本

  好的样本是开发模型的首要环节。预测模型的前提是客户的未来行为要与过去相似,所以在选取样本时要考虑样本的代表性,是否能够有效地代表总体。在建立模型的时候不一定要建立在全量样本上,所有涉及到样本的选取:
  随机抽样:
  随机抽样是在给定样本规模之后从总体中完全随机抽取,每种类型的样本个体是与总体比例一样的。例如,某银行有100万个信用卡账户,2万个“坏”的账户,若随机抽取2%的样本,则“坏”账户有200个,好账户与坏账户在样本中的比例与在总体中的是一样的,样本加权数均为100。
  分类抽样:
  分类抽样先要根据模型的需求确定样本的类别,确定针对每个类别的抽样个数,然后在每个类别内进行随机抽样。有点像统计学的分层抽样。所以这样抽到的样本,每个类别的抽样比例是不一样的,加权数越低,抽样比例越高。
  分类抽样的好处是可以保证样本中每类对象都可以在样本中占据一样的位置。分类抽样还可以具体细分到下一级的类别。
  在选择样本时要注意一下原则:
  1. 样本的代表性
  样本必须能够代表总体,过去以及未来。例如将学生群体的数据应用到白领群体模型是不合理的,模型的预测效果也会大打折扣。
  2. 样本的充分性
  样本量该如何确定?样本量太大对数据加工和模型发展的时间较长;太小,可能达不到统计的显著性,即提炼出来的数据关系的代表性不足,置信度太低。一般情况下,银行账户数据中的坏账数据相对好账是少的,所以要保证坏账样本的数量与好账样本数量的稳定性。一般坏账1000

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值