目标:
客户分类,比较分析不同类别客户价值,制定相应的营销策略
思路与流程:
分析的目标是将航空公司客户分类,属于无监督学习,故采用聚类挖掘模型
确定模型之后,需要选择相应的指标,这里指标的选择需结合业务来确定,能够反映客户的关键特征
确定模型和指标之后,可能需要对数据进行一定的探索分析,预处理等,以适应挖掘的需要
数据抽取 - 数据探索分析 - 数据预处理 - 构建模型及模型应用
一、数据抽取
首先观察一下原始数据的基本信息
可以看出,原始数据大小为 (62988行, 44列),并且存在空值,存在不同的数据类型
二、数据探索分析
这里着重分析数据的质量,特别是空值数量,极值的数量
通过观察可以看出,原始数据中存在票价为空值、票价为0、折扣率最小值为0、飞行公里数大于0的记录。票价为空值的原因可能是乘客不存在登机记录,其他数据可能是乘客乘坐0折机票或积分兑换造成
三、数据预处理
1 数据清洗
通过数据的探索分析发现数据中存在票价为空值、票价为0、折扣率最小值为0、飞行公里数大于0的记录。由于这块的数据所占比重较小,故采用丢弃的处理办法
01 删除空值
02 仅保留票价不为0,或折扣率和总飞行公里数同时为0的记录