一、绪论
近年来,随着支付宝、微信等第三方支付平台的流行和经济体制改革的深化,银行同业间的竞争出现了恶化的趋势,客户流失率的与日俱增也使得银行机构的经营变得紧张。其次,在“互联网+”盛行的21世纪,互联网金融服务与金融产品犹如雨后春笋般层出不穷,加速了客户对银行机构的忠实度和依赖性的降低,如何处理客户流失问题俨然成了摆在各大银行面前的一大挑战。
本文在对某欧洲银行客户数据探索与预处理的基础上,利用决策树、关联规则、贝叶斯网络这三种分类技术建立数据挖掘模型,并通过对模型的解释和评估对比确定最佳模型。分析结果表明,三种模型对测试集的预测准确率较高,但决策树在该银行客户流失预测问题中的预测效果最准确稳定。论文重点在于利用分类挖掘技术对银行客户信息进行分析研究,深入、全面地挖掘客户的流失倾向,总结已流失客户和未流失客户的群体特征,并为该银行提供有针对性的建议,有助于银行对客户价值做出正确的判断,从而稳定存有客户,挽留潜在客户,发展新增客户,使银行在整体上提高效益,在激烈的同业竞争中发挥出最大的竞争优势。
(一)研究背景
随着市场竞争的加剧和银行规模经济效应的逐步下降,银行同业间的产品或服务差异越来越小,而对于银行来说,客户显然是最具有价值的资产和最大财富,越来越多的事实证明“以客户为中心”的银行往往能在市场中获得更大收益。
银行客户流失是指客户不再继续办理原业务或者终止参与该银行的业务。近年来,国内金融改革的深入及民营银行的进入加速了银行的客户流失和忠实度下降,各银行间的客户争夺战愈演愈烈。为了能在激烈的同业间竞争中取胜,各大银行纷纷采取措施调整本行的产品或服务,一方面着眼于夯实客户基础,通过发展新客户来提高已有客户的保有量,另一方面也越来越注重已有客户活跃度的提高和客户流失率的降低。从客户成本角度分析,挽留一个已有客户、提高已有客户活跃度的成本远低于吸引一个新增客户的成本,且堵住漏洞比盲目发展更加重要,因此做好客户流失管理工作是现今银行行业的工作重心。[1]
(二)研究意义
在客户导向的时代,未来银行行业的竞争势必紧紧围绕着客户,如何提高客户的忠实度、提升客户价值,进而衍生本行利益已经成为银行最关注的问题之一,同时也将成为衡量银行竞争力的重要指标。此外,当下各国银行业普遍应用了数据管理系统,但在分析数据信息方面存在不足,缺乏专业的知识手段和工具,往往造成数据浪费,因而难以利用数据发现潜在的流失客户。[2]
数据挖掘技术的诞生正是解决了缺乏信息分析专业工具这一难题。所谓数据挖掘,又称数据库中的知识发现,是指从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程,其应用领域十分广泛。在不断变化的市场需求和潜在进入者面前,数据挖掘技术可以根据企业需求为企业创建模型,帮助企业从大量的原始数据中抽取具有价值的商业信息,向企业直接提供知识。[3]
对于银行业,利用数据挖掘技术中的分类方法建立预测客户流失模型来支持决策是最直接且较为理性的选择。本文通过对客户流失数据的探索与预处理来建立基于三种分类方法的客户流失模型,根据结果分析该银行客户流失情况及特征,预测潜在客户行为,并为该银行提供客户挽留及关怀的建议。
二、数据描述
本文数据来源于superdatascience官网某欧洲银行的数据,源数据样本总量共10000条,每一条对应一个客户的统计信息。数据集包含14个变量,分别为“编号”、“客户ID”、“姓名”、“信用分”、“国家”、“性别”、“年龄”、“使用该银行产品时长”、“存贷款情况”、“使用产品数量”、“是否有信用卡”、“是否为活跃客户”、“收入估计”、“是否已流失”。
表 1源数据属性表
属性名 | 变量类型 | 属性名 | 变量类型 |
---|---|---|---|
编号 | 离散型 | 使用该银行产品时长 | 连续型 |
客户ID | 离散型 | 存贷款情况 | 连续型 |
姓名 | 离散型 | 使用产品数量 | 连续型 |
信用分 | 连续型 | 是否有本行信用卡 | 离散型 |
国家 | 离散型 | 是否活跃客户 | 离散型 |
性别 | 离散型 | 收入估计 | 连续型 |
年龄 | 连续型 | 是否已流失 | 离散型 |
由表1可知,属性表中共有6个连续型变量,8个离散型变量,其中“是否已流失”是本文研究的目标变量,其余均为预测变量。为了深入探索数据,本文结合EXCEL数据透视表功能对各变量进行了描述性统计分析。
(一)连续型变量分布情况
图1-6分别展示了本文6个连续型变量的频数分布情况。由图可知,客户信用分总体趋向于正态分布,在[650,700]区间达到峰值,鲜有客户的信用分低于400;客户年龄趋向于右偏分布,且该银行42-52岁的客户数量最多,64岁以上的客户数量较少。
从客户与该银行产品的关系来看,客户使用该银行产品的时长均匀分布在2-8年,约六成客户在该银行办理存贷款业务,且使用的银行产品数量均匀分布在1-2个,可见该银行的客户忠实度较高。但从峰值来看,使用该银行产品少于2年的客户数量最多,且存在约37%的客户未办理存贷款业务,由此可以推测该银行在新客户及存贷款业务办理方面的吸引力不够强,相关职能部门需要根据实际情况做出战略调整。
此外,根据客户的收入估计分布图显示,该银行接待的客户收入分布跨度较大且不均匀,不存在显著的收入区间,即客户群体不集中。
(二)离散型变量分布情况
图7-8分别展示了“国家”、“性别”、“是否有本行信用卡”、“是否活跃客户”这四个离散型变量分布与客户流失情况。从图可以看出,该银行的法国客户数量显著高于另外两个国家,且其客户流失率最低,但银行的德国客户和西班牙客户总数少于法国客户数,同时德国客户的流失率约是另外两国客户流失率的两倍,这可能是由文化差异导致的。综上,该银行在法国