pdf文件在 https://download.youkuaiyun.com/download/u011539200/10865606
1.问题描述
假设有个样本,每个样本表示一个贷款客户的信息。第
个样本表示为
,其中
,
。
具体地说,是一个
维向量,每一个维度表示贷款人的一个属性变量。这
个变量,是经过填充数据缺失、去除离群点、去除高相关性变量、筛选高IV等之后的入模变量。
的值是0或1,
表示逾期,
表示正常。
写成矩阵的形式,个样本全部数据,可以写成如下形式:
2.优化求解
对客户而言,如果其逾期的概率是
,那么其正常的概率就是
,一个客户要么逾期要么正常,逾期和正常的概率之和必然是1。
我们需要根据评估用户
是否会逾期。对于构建模型而言,最简单的是线性模型。在线性模型,就是:
其中,