数字化建模相关概念
本人小白,只为记录,抛砖引玉
写此博客的目的只为描述清楚:数据建模的步骤?每个步骤干了什么事情?每个事情内部是怎么操作的?
数字化建模时间分配上来说,数据的收集处理要占时间的80%,真正建模的时间可能只有20%。总体步骤:1.P(目标),明确建模的目标,达成的效果。2.S(感知),数据探查,数据分析。3.D(决策),宽表的制作,特征的加工,模型的选择,清单试点。4.A(行动),智能外呼,智能营销。5.F(反馈),效果反馈。
请记住:无论后文我怎么描述,终究是在讲述P,S,D,A,F中的一些步骤和做法。
看下文的时候可以思考是在说PSDAF中的哪一步。下面我将讲述一些特有的步骤和操作方法。
数据分析的步骤
- 明确分析目的和思路:从业务场景->数据需求->数据指标(指标应与建模目标一致);
- 数据收集:历史数据,存量,hadoop,Sql。确保数据安全准确;
- 数据预处理:数据清洗,去重,填补缺失;
- 数据探索分析和AI建模:数据可视化,基本图标,数据统计,分布统计,机器学习,深度学习;
- 结果发布和报告撰写:发布,上线,分析报告;
确定指标
举个栗子:建模要求是判断是否给予客户授信(目标)。结果无非0(不授信)1(授信)两种。那么我们怎么从已经整理好的数据表中抽出 “授信” 这一字段呢?难道仅仅是截止到当前日期为止是否有不良记录为标准吗?
这显然是不合适的。正确的做法应该是以:维度+属性或者属性四则运算的结果为指标。比如:1-3月内…,6月底…,最近一次缴费,最大金额,人均金额等。举例:有日期和金额和人数三个字段。则以时间跨度,均值方差环比等为纵轴;人数,金额,人均金额为横轴。画出一张包含多个指标的表格。
正确做法的例子:从日期跨度来说:选取一年日期内有记录的客户观察客户在一年内是否有超过100天的违约记录,以此为指标,有不良数据则拒绝授信,标签为0,反之,标签为1。
指标应该是便于计算和便于操作的。对于一些指标有刚控和揉控之分。刚控指标:应对不满足此指标的数据立即抛弃, 比如针对成年女性的消费分析,应对年龄和性别指标严格控制。
上述提到的观察客户在一年内是否有超过100天的违约记录实际上是一个新的概念:表现期。评分卡模型数据统计能用的。统计从2010.1-2011.1月之间所有有拮据的客户,设拮据时间点T, T-1年作为观察期,T+1年为表现期,表现期数据为标签。样本的80%做训练,20%做验证。
数据探查
数据探查的目的:通过对数据进行初步分析和检查,来理解数据的特征、质量和分布情况。这有助于发现数据中存在的模式、异常值、缺失值和相关性,并为接下来的建模过程做好准备。数据探查还可以帮助选择合适的特征工程方法,优化建模算法的参数,并更好地理解数据背后的故事。
在进行建模数据探查时,通常会进行一些常见的操作,比如查看数据分布、绘制特征之间的关系图、识别异常值和缺失值、计算特征之间的相关性等。这些操作可以帮助我们建立对数据的直观认识,以便更高效地进行后续的建模工作。
当我们拿到一张税收表,该怎样去做数据探查呢?
首先:我们要判断表的类别,整理出表中名字,表的所有字段,字段的详细解释。随后对各个字段进行详细的探查。比如:主键字段是否有缺失,是否重复,不同主键的相同数据要去重;日期字段的起始日期和结束日期,时间跨度;税收种类字段,我们可以统计具体的种类,观察是否和企业要求的一致,是否存在同义不同名的情况,存在要做转换;金额数据,探查金额的单位,缺失值等。通过探查,初步判断某字段是否精准,是否可用。
一些还需要知道的:
库表:库表通常指的是数据库中的表,它们用来存储数据。她们通常明细,不可轻易变动,原始,属于内部数据。
接口表:接口表则通常指代系统之间进行数据交换的接口所使用的数据结构。这些接口表可以是某种标准数据格式,用于在不同系统之间传递数据,例如在不同系统间进行数据集成、数据交换或数据传输。
简而言之,库表是用来存储数据的数据库表,而接口表是用来进行系统间数据交互的数据结构。
缺失值的处理
处理建模表中的缺失值通常可以采取以下几种常见方法:
-
删除含有缺失值的记录:如果缺失值较少,可以考虑删除含有缺失值的记录。但在某些情况下,这可能会导致数据丢失问题。
-
填充缺失值:可以使用均值、中位数、众数等统计量填充数值型特征的缺失值,或者使用特定值(如"unknown")填充分类特征的缺失值。
-
使用模型进行填充:可以利用其他特征,通过建立模型来预测缺失值,然后进行填充。
-
创建指示变量:对于某些特征,例如某个字段的缺失可能本身也包含了信息,可以创建一个布尔类型的指示变量来表示该值是否缺失。
选择哪种方法取决于缺失值的数量、数据的特性以及建模的要求。
通常就是:填,删