1.背景
准确的客户分类是企业优化营销资源分配的重要依据。
数据:航空公司的会员档案信息和乘坐航班记录
目标:(1)用户分类 (2)不同客户类别特征分析,比较客户价值
(3)不同客户提供不同营销策略
2.分析
已有的最广泛的模型:RFM模型
三个指标分别是:最近消费时间间隔(Recency)、消费频率(Frequency)、消费金额(Monetary)
在具体场景:航空客户价值分析,选择客户在一定时间积累的飞行里程M和客户在一定时间内乘坐舱位所对应的折扣系数平均值C两个指标代替消费金额。并加入会员入会时间的长短作为特征L(客户关系长度)。
新得到的模型为LRFMC(客户关系长度、消费频率、飞行里程、折扣系数平均值),采用K-Means聚类不同客户。
思考:建立其他背景的模型时应当怎样考虑,先根据经验建立简单模型,再根据建立出的模型效果进行加入不同的特征测试?或者直接选出所有特征,再做特征选择
-
数据抽取
选取宽度为两年的时间段(2012-04-01~2014-03-31)作为分析观测窗口,62988条数据。 -
数据探索分析
import pandas as pd
datafile = r"F:\jpt_f\python_data_analysis_all\chapter7\data\air_data.csv"
resultfile = r'my_tmp/explore.xls'
data = pd.read_csv(datafile, encoding='utf-8')
explore = data.describe(percentiles=[], include='all').T
explore['null'] = len(data)-explore['count']
explore = explore[['null', 'max', 'min']]
explore.columns = [u'空值数', u'最大值', u'最小值']
explore.to_excel(resultfile)
结果输出为前四列,最后一列自己加的(为了方便看特征含义):