一、模型的样本
好的样本是开发模型的首要环节。预测模型的前提是客户的未来行为要与过去相似,所以在选取样本时要考虑样本的代表性,是否能够有效地代表总体。在建立模型的时候不一定要建立在全量样本上,所有涉及到样本的选取:
随机抽样:
随机抽样是在给定样本规模之后从总体中完全随机抽取,每种类型的样本个体是与总体比例一样的。例如,某银行有100万个信用卡账户,2万个“坏”的账户,若随机抽取2%的样本,则“坏”账户有200个,好账户与坏账户在样本中的比例与在总体中的是一样的,样本加权数均为100。
分类抽样:
分类抽样先要根据模型的需求确定样本的类别,确定针对每个类别的抽样个数,然后在每个类别内进行随机抽样。有点像统计学的分层抽样。所以这样抽到的样本,每个类别的抽样比例是不一样的,加权数越低,抽样比例越高。
分类抽样的好处是可以保证样本中每类对象都可以在样本中占据一样的位置。分类抽样还可以具体细分到下一级的类别。
在选择样本时要注意一下原则:
1. 样本的代表性
样本必须能够代表总体,过去以及未来。例如将学生群体的数据应用到白领群体模型是不合理的,模型的预测效果也会大打折扣。
2. 样本的充分性
样本量该如何确定?样本量太大对数据加工和模型发展的时间较长;太小,可能达不到统计的显著性,即提炼出来的数据关系的代表性不足,置信度太低。一般情况下,银行账户数据中的坏账数据相对好账是少的,所以要保证坏账样本的数量与好账样本数量的稳定性。一般坏账1000