评分卡模型-（一特征构建）

最新推荐文章于 2020-11-03 10:56:14 发布

原创

最新推荐文章于 2020-11-03 10:56:14 发布 · 834 阅读

1 ·

CC 4.0 BY-SA版权

这篇博客主要介绍了评分卡模型中特征构建的过程。首先，作者读取并处理了多个数据集，包括'PPD_Training_Master_GBK_3_1_Training_Set.csv'，'PPD_LogInfo_3_1_Training_Set.csv'和'PPD_Userupdate_Info_3_1_Training_Set.csv'。接着，对时间格式进行了处理，并计算了登录天数的分布。然后，分析了登录方式，创建了不同时间窗口下的登录次数和频率指标。最后，对更新数据进行了类似的处理，并判断了归属地的一致性。整个过程展示了如何从原始数据中提取有价值的特征。

# -*- coding: utf-8 -*-
"""
Created on Sun Sep 16 09:24:18 2018

@author: wangxihe
"""

import os
import pandas as pd
import datetime
import matplotlib.pyplot as plt
import collections
import numpy as np
os.chdir(r'E:\spyderwork\评分卡模型\一特征构建')

plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
#%%读取数据
MasterData=pd.read_csv('PPD_Training_Master_GBK_3_1_Training_Set.csv',encoding='gbk')
LoginData=pd.read_csv('PPD_LogInfo_3_1_Training_Set.csv',encoding='gbk')
UpdateData=pd.read_csv('PPD_Userupdate_Info_3_1_Training_Set.csv',encoding='gbk')
#%%处理时间格式
#LoginData['Listinginfo1']=pd.to_datetime(LoginData['Listinginfo1'])
LoginData['Listinginfo1']=LoginData['Listinginfo1'].apply(lambda x :datetime.datetime.strptime(x,'%Y-%m-%d'))
LoginData['LogInfo3']=LoginData['LogInfo3'].apply(lambda x :datetime.datetime.strptime(x,'%Y-%m-%d'))

#计算登录天数
LoginData['LogDay']=LoginData['Listinginfo1']-LoginData['LogInfo3']
#LoginData['LogDay']=LoginData[['Listinginfo1','LogInfo3']].apply(lambda x:x[0]-x[1])
LoginData['LogDay']=LoginData['LogDay'].dt.days
#%%
#查看登录天数分布
LoginData['LogDay'].plot(kind='hist',bins=200)

#%%#查看登录天数分布
plt.hist(LoginData['LogDay'],bins=300)
plt.title('登录天数分布')
#%%登录方式

LoginData['LogInfo2'].value_counts()
LoginData['LogInfo2'].value_counts().sort_values().plot(kind='barh')
#%%
def MyDiv(x,y):
&nbs