银行项目主题
主题:客户、产品、交易、合同
维度:渠道、地区、时间等
以交易主题为例
贷款总额、应还款本金、应还款利息、实际还款本金、实际还款利息、逾期本金、逾期利息、逾期罚息
五级分类
商业银行金融资产风险分类办法_中国银行保险监督管理委员会_中国政府网
正常,损失率 0
关注,损失率 0,本金或利息逾期7天内
次级,损失率>=20%,本金或利息逾期90 天
可疑,损失率>=50%,贷款本金逾期270天以上
损失,损失率90%以上, 贷款本金逾期360天以上
后三类是不良贷款
逾期期数
· M0:当前未逾期(或用C表示,取自Current)
· M1: 逾期1-30日
· M2:逾期31-60日
· M3:逾期61-90日
· M4:逾期91-120日
· M5:逾期121-150日
· M6:逾期151-180日
· M7:逾期180日以上。此时也被称为呆账(**Bad Debts**),会予以注销账户(write-off)
ODS数据抽取
从各个业务系统中获取到相关的原始数据
数据抽取如何保证数据的一致性?
1.对于增量抽取的时候,确保--check-column
(检查列)和--last-value
(上次抽取值)参数的正确设置。
2.对数: 在抽取前计算表里的行数为1W条,抽取完成后检查该表的数据行是不是也是1W条,(count)
同时计算某一列的和(比如交易金额)即 sum()
数据丢失的解决办法
根据数据丢失的范围,重新执行 Sqoop 抽取任务来恢复丢失的数据。如果是少量数据丢失,可以针对特定时间段或者特定业务数据范围进行增量抽取。例如,使用 Sqoop 的增量抽取功能,设置从数据丢失的起始时间戳开始重新抽取数据。
抽数时间
一般是凌晨
原因
业务低峰期:通常凌晨是大多数业务系统的访问量较低的时段,进行数据抽取可以减少对业务系统性能的影响,避免在业务高峰期进行数据操作而影响用户体验和系统性能
数据处理时间:数据抽取、转换和加载(ETL)可能需要较长时间,特别是在数据量大的情况下。选择在凌晨进行可以确保有足够的时间完成数据处理,以便数据在业务日开始前准备就绪
避免数据漂移:由于数据产生后才能抽取,并且很难做到数据实时产生实时抽取,所以extract_time一般会晚于事件时间。在凌晨进行数据抽取可以减少因时间差异导致的数据漂移现象,确保数据的准确性和一致性
典型的时间顺序是:事件时间(Event Time) → 抽取时间(Extract Time) → 处理时间(Processing Time) → 加载时间(Load Time)
增量/全量
使用场景
全量抽取:适合初次数据抽取/数据恢复/数据量不大
增量抽取: 只抽取自上次抽取以来发生变化的数据.
比如每天都会产生新的信贷申请,审批,还款等数据,这种新产生的数据对整个数据集来说只是一小部分
-
基于时间戳: 通过比较数据表中某个时间戳字段的值来判断哪些数据是新增或修改的。
-
基于增量标识字段: 通过比较数据表中某个自增字段