
数据处理
李元乐
山高李维峰
展开
-
网贷风控体系之-风控模型
网贷风控体系之-风控模型大数据风控模型主要分为两类:**反欺诈模型**交叉验证聚类分析黑灰名单**二元好坏模型**准入阶段,授信额度期限利率模型:评分卡模型,LR,XGBoost贷中阶段:风险变化评估,风险预警贷后阶段:催收时机,催收方法**存在的问题**数据来源问题;模型泛化能力;系统性风险问题原创 2020-08-02 18:14:49 · 1031 阅读 · 2 评论 -
网贷风控体系之-决策引擎
网贷风控体系之-决策引擎什么是决策引擎风控决策引擎是金融科技的核心,它通过模拟信贷审核人员,根据收集的资料信息,做出风险决策,判断是否存在风险,风险等级等决策,给出决策的结果。很显然通过这种准需实时支持大量业务的自动化处理,可以极大地提高工作效率,降低风险控制中的各种人为因素,解放人工处理的瓶颈与效率。决策引擎实际上是一系列风控规则的集合,用于识别绝对风险与相对风险。对于绝对风险,决策引擎的的输出结果是“拒绝”,即命中风险规则则拒绝;对于相对风险,决策引擎的有两种输出结果:一类是风险评分原创 2020-08-02 17:59:53 · 696 阅读 · 0 评论 -
网贷风控体系之-系统架构
网贷风控体系之-系统架构目前常见的大数据架构是基于实时大数据处理框架Lambda架构。Lambda架构的数据通道分为实时流和离线两部分。流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性。Lambda架构整合离线计算和实时计算,融合不可变性,读写分离和复杂性隔离等一系列架构原则,可集成Hadoop,Kafka,Storm,Spark,Hbase等各类大数据组件。该大数据系统架构具有容错性和鲁棒性,低延时,横向扩容,通用性,可扩展,方便查询,易于维护,原创 2020-08-02 17:49:23 · 674 阅读 · 0 评论 -
网贷风控体系之-概论
网贷风控体系之-概论1,全流程,全周期;2,数据化,数字化;3,场景化,可控化;4,安全合规我们知道,银行级别风险控制措施:以安全性、流动性、效益性为经营原则。一般从以下方面进行整个风控控制:1、专业风控流程。风控措施贯穿于项目筛选、项目尽职调查、项目决策、项目组织实施、项目后续监管和等各个投资流程与环节中。分析各个岗位和流程中的风险,进行风险评估并提出控制措施。2、严格风险审查。综合企业经营特性设置独立风险评估体系,交叉验证企业信息准确性,评估企业融资需求的合理性、合规性。3、完善贷后原创 2020-08-02 20:27:22 · 615 阅读 · 0 评论 -
连接物理和数字世界,以数据驱动企业持续增长
数字化转型变得重要且紧急数据驱动型企业的概念以数据生产要素驱动经营管理,实现持续增长和创新发展从农业经济到工业经济,生产要素经历了由土地、劳动力向资本、技术及管理等的演进。数字经济时代催生了以大数据为代表的新型生产要素,企业的经营管理离不开海量数据的支撑。相较于传统生产要素的有限增长和供给,数据具有可复制、可共享、无限增长和供给的特性,可以通过连接物理世界和数字世界,驱动企业向数字化转型升级,进而实现持续增长和创新发展。需要注意的是,数字化转型强调的是运用数字技术,而数据驱动强调是以数据作为关键生产要转载 2020-07-18 16:30:37 · 1411 阅读 · 0 评论 -
时代的数据魔法:ETL
时代的数据魔法:ETLDT时代,如何高效地把数据转换为信息、知识,已经成为企业亟待解决的关键问题,ETL作为数据分析、数据挖掘的基础,已成为提高核心竞争力的重要技术手段。什么是ETL如果把数据仓库的模型设计比作是一座大厦的设计蓝图,那么数据就是构成大厦的一砖一瓦,而ETL就是建设大厦的过程。时代的数据魔法:ETL图:典型BI系统结构图,来源于网络根据典型BI系统结构图我们可以看出,ETL(Extraction-Transformation-Loading)是数据仓库获取高质量数据的关键环节,也转载 2020-07-18 16:20:49 · 301 阅读 · 0 评论 -
数据处理-Spring Batch Scaling and Parallel Processing
承蒙各位抬爱,鄙人的一篇关于Spring Batch的博客《Spring Batch之进阶》有很多人浏览。说明有很多人工作中用到这个spring batch框架进行批量任务处理,也说明对这个框架还有不少不熟悉的地方,鄙人也是。That is to say,我们有必要加强学习,不然三天不学习,赶不上×××。这里就来继续说说Spring Batch Scaling and Parallel Proce原创 2018-02-07 17:19:17 · 652 阅读 · 0 评论 -
数据处理-Spark Worker工作流程图启动Driver源码解读
Spark Worker原理和源码剖析解密:Worker工作流程图、启动Driver源码解密。转载自:https://jingyan.baidu.com/article/f96699bbdeafbd894f3c1b7a.html方法/步骤1Worker中Driver和Executor注册过程Worker本身核心的作转载 2018-01-05 09:47:18 · 651 阅读 · 0 评论 -
数据处理----Java数据处理之RMI
也不知道叫个什么标题,就乱写了一个,这个专题的目的就是想梳理下在Hadoop等等分布式系统中可能用到的一些知识。很多复杂的技术,其实也是由很多基础组合而成的。有了牢固的基础,很多东西可以搭配在一起,自然就成了所谓的框架,平台,正所谓罗马不是一天建成的。一、RMI RMI全称是Remote Method Invocation-远程方法调用,since JDK1.1。其实它可以被看原创 2015-09-28 10:37:14 · 4105 阅读 · 0 评论 -
数据处理---Spring Batch之进阶
有了前面两篇的基础之后,我们一起来聊聊更高级的关于Spring Batch的话题。比如Job 配置;自定义各种Listener;控制步骤流程;自定义Reader,Processor,Writer;并行处理。这些东西在Spring Batch的使用中很多可能会需要的,当然还有更多的内容,最好找下文档,这样上手就快很多。原创 2016-07-06 18:40:52 · 36530 阅读 · 3 评论 -
数据处理---Spring Batch之实践
上面介绍了Spring Batch的基本概念和简单的demo项目,显然这些还是不够实际使用的。下面我们来更多的代码实践。 在上面的基础项目上面,我们来更多的修改: 不用项目默认的hsql DB,用mysql,让ItemReader,ItemWriter 支持mysql; 支持总结处理结果自定义保存到数据库,我们用项目里面的JPA;原创 2016-07-04 17:31:18 · 7176 阅读 · 1 评论 -
数据处理---Spring Batch之基础
Spring框架提供了强大的底层结构,基于此,Spring出现了很多方面的应用。Spring Batch就是其一,它是一个轻量级的,完全面向Spring的批处理框架,可以应用于企业级大量的数据处理系统。Spring Batch以POJO和大家熟知的Spring框架为基础,使开发者更容易的访问和利用企业级服务。Spring Batch可以提供大量的,可重复的数据处理功能,包括日志记录/跟踪,事务管理原创 2016-07-04 15:07:25 · 3703 阅读 · 3 评论 -
数据处理---JVM监控
监控,就是要监视控制,既要监视出问题,也要能随时控制调整。下面来说说JVM监控的常用工具(JDK/bin自带提供了很多)和方法。1 . jinfojinfo -h 可以知道使用的参数有:jinfo [option] to connect to running processjinfo [option] to connect a core fi原创 2015-11-11 14:57:39 · 1167 阅读 · 0 评论 -
数据处理---Java数据处理之序列化
既然上一篇已经引出了序列化的问题,这里我们就来专门说说这个。序列化的目的: 实现简单的持久化,说到持久化,我们很多时候想到的是保存到数据库中,没错,对象也可以保存到数据库中或者是文件中,这样可以保存对象的状态等等信息。 实现对象的远程传输,从而完成远程调用。在RMI中,服务端与客户端之间传递的Java对象必须是可序列化的对象,不可序列化的对象不能在对象流中进原创 2015-09-29 10:22:48 · 1065 阅读 · 0 评论 -
数据缓存---Spring Redis Cache 缓存
数据缓存是数据处理里面重要的一环,尤其针对大量查询的时候,缓存是必不可少的步骤,能够极大的提高性能。缓存的方案有很多种,这里一起来试试Redis. Redis是何方圣神,不多说了,哈哈,后面再专门出一个Redis的,很久就想体验一把。1.Redis安装运行wget http://download.redis.io/releases/redis-3.0.6.tar.gz tar zx原创 2016-01-27 11:39:15 · 1879 阅读 · 0 评论 -
MapReduce之Map端Join实现
前面说了个MapReduce之Reduce端Join实现,Reduce端做join,在数据量比较大的时候往往会内存不足,还在Map端白白做了很多工作,这样是不经济的。这回咱们也来说个在Map端的Join实现。在数据量较大的时候,如果一个表的数据很多,而另外一个表的数据较少,可以把数据较少的放到Cache中,在map的时候就把要关联的信息直接给带上,而不用到Reduce的时候再去找,这样当然会节省很原创 2015-12-26 22:39:14 · 890 阅读 · 0 评论 -
HBase--Coprocessor协处理器
前面说过,Hbase做聚合,分组之类的运算很不方便,更不要说join之类的,更是麻烦。有没有好点的办法呢?这里介绍下HBase--Coprocessor。Hbase有两种类型的Coprocessor,为:Observer Coprocessors 和Endpoint Coprocessor,前者类似触发器,在特定的事件发生时候触发,后者类似存储过程,执行数据计算。观察者协处理器在 很多地方可能用原创 2016-03-29 22:38:10 · 1709 阅读 · 0 评论 -
HBASE--数据操作,MapReduce
前面已经对HBASE有了不少了解了,这篇重点在实践操作。HBase本身是一个很好的Key-Value的存储系统,但是也不是万能的,很多时候还是要看用在什么情形,怎么使用。KV之类的数据库就是要应用在这类快速查找的应用上,而不是像传统的SQL那样关联查询,分组计算,这些可就不是HBase的长处了。下面先来观察下HBase的基本操作和存储,然后介绍下基于HBASE的MapReduce怎么写,在一些应用原创 2016-03-13 15:22:35 · 701 阅读 · 0 评论 -
HBase---Phoenix(SQL on HBase)
前面说过,HBase的是一个Key-Value的数据库,很多简单的SQL都没有,想做些查询都不方便,这里来介绍下Apache的Phoenix。 Phoenix,由saleforce.com开源的一个项目,后又捐给了Apache。它相当于一个Java中间件,像使用jdbc访问关系型数据库一些,访问NoSql数据库HBase。Phoenix可以看作是一个JDBC的驱动封装,实现了很多常原创 2016-03-30 21:43:03 · 889 阅读 · 0 评论 -
Hadoop之深入MapReduce编程
前面已经介绍个几个MapReduce的例子,那个Hello world是最基础的,MapReduce Join篇写了怎么实现Map端和Reduce端的做法,还有个semi-join没有写出来,其实semi-join可以看做是两者的结合,所以没有做说明。MapReduce编程模型需要多写,多实践,比较多写笔下生花,只有遇到的坑多了,一会就没那么容易掉到坑里面,正所谓常在坑里走,哪有不被坑呢,。这不,原创 2016-02-22 16:26:44 · 1135 阅读 · 0 评论 -
数据处理---Java数据处理之消息队列
前面说了RMI,这是一个同步分布式调用的必备手段;但是为了实现异步的分布式处理,不得不说到的就是消息队列了。对任何架构或应用来说,消息队列都是一个至关重要的组件,它具有多方面的优点:1. 解耦性消息队列在处理过程提供了中间插入了一个隐含的、基于数据的接口层。这样就可以把不同的系统边界隔离开来,每个系统做专门的事情,提供独立的服务,需要调用的时候传输给第三方。这允许你独立的扩展或修改两边的处原创 2015-10-09 13:43:19 · 3020 阅读 · 0 评论