
数据存储
文章平均质量分 88
李元乐
山高李维峰
展开
-
网贷风控体系之-风控模型
网贷风控体系之-风控模型大数据风控模型主要分为两类:**反欺诈模型**交叉验证聚类分析黑灰名单**二元好坏模型**准入阶段,授信额度期限利率模型:评分卡模型,LR,XGBoost贷中阶段:风险变化评估,风险预警贷后阶段:催收时机,催收方法**存在的问题**数据来源问题;模型泛化能力;系统性风险问题原创 2020-08-02 18:14:49 · 1031 阅读 · 2 评论 -
网贷风控体系之-决策引擎
网贷风控体系之-决策引擎什么是决策引擎风控决策引擎是金融科技的核心,它通过模拟信贷审核人员,根据收集的资料信息,做出风险决策,判断是否存在风险,风险等级等决策,给出决策的结果。很显然通过这种准需实时支持大量业务的自动化处理,可以极大地提高工作效率,降低风险控制中的各种人为因素,解放人工处理的瓶颈与效率。决策引擎实际上是一系列风控规则的集合,用于识别绝对风险与相对风险。对于绝对风险,决策引擎的的输出结果是“拒绝”,即命中风险规则则拒绝;对于相对风险,决策引擎的有两种输出结果:一类是风险评分原创 2020-08-02 17:59:53 · 696 阅读 · 0 评论 -
数据存储---REDIS cluster
好久没有写了,还是慢慢拾起来吧。前面很早就说过要搞个redis cluster,这次我们就来一个。下面记录下我的操作。一,基本操作1,新建用户groupadd zookeeperuseradd -g zookeeper -G zookeeper -d /home/zookeeper zookeeperpasswd zookeepergroupadd redisuseradd -g redis -G...原创 2017-09-01 15:13:41 · 630 阅读 · 0 评论 -
数据处理---那些年遇到的SQL汇总
那些年遇到的SQL问题真的不少,各种类型的,有面试的时候遇到的SQL,有开发的时候遇到的,有性能优化的时候遇到的,还有在网上看到的各种资料的,林林总总,问题不少,这里做个汇总,从以下几个方面说下:1,各种SQL语句;2索引和SQL性能Explain;3 JOIN相关,为了忘却的的纪念:1,各种常见SQL语句各种Join:内联接,外联接(LEFT OUTER JOIN,RIGHT...原创 2018-01-09 11:43:48 · 475 阅读 · 0 评论 -
数据存储---Mysql双机互为热备方案实践
Mysql作为一个流行的数据库,对于怎么样构建高性能、高可用、可扩展的MySQL集群,的确是一个讨论很多的话题。方案多种多样,看到知乎上面的https://www.zhihu.com/question/21307639,这些方案应该说都有道理,但是都有缺点,由于CAP的原因,很难鱼和熊掌前的兼得。把二楼的回答稍作修改摘录如下: 1. 做读写分离,关于这方面的原因解释太多次数(增...原创 2018-01-03 13:15:19 · 2773 阅读 · 0 评论 -
数据存储---GreenPlum实践
GreenPlum作为一个很好的开源的数据仓库,一直想体验一把,最近装了一个.关于安装,网上资料介绍也多了不少,至少越来越多,不过真正装一把才知道还是有各种坑的,不是那么一帆风顺的. Greenplum在线安装文档 http://gpdb.docs.pivotal.io/500/install_guide/prep_os_install_gpdb.html#topic8原创 2017-10-06 22:14:35 · 2136 阅读 · 0 评论 -
Hadoop基础之---集群搭建
在VM上搭建Hadoop,是一件鸡冻又痛苦的事情。说到鸡冻,是想一睹Linux的芳容,一睹Hadoop的神奇,不过这个工程也是有不少各种坑的,一不小心就掉坑里面了,半天还起不来。咱也来炫耀一回,把整个过程的要点记录下来; 1. 下载一个VM工具 有VMWare或者VirtualBox(Oracle的免费的)下载一个操作系统的ISO文件,例如centos,ubuntu,免费的这原创 2015-08-13 15:50:38 · 1276 阅读 · 0 评论 -
HBASE--数据操作,MapReduce
前面已经对HBASE有了不少了解了,这篇重点在实践操作。HBase本身是一个很好的Key-Value的存储系统,但是也不是万能的,很多时候还是要看用在什么情形,怎么使用。KV之类的数据库就是要应用在这类快速查找的应用上,而不是像传统的SQL那样关联查询,分组计算,这些可就不是HBase的长处了。下面先来观察下HBase的基本操作和存储,然后介绍下基于HBASE的MapReduce怎么写,在一些应用原创 2016-03-13 15:22:35 · 701 阅读 · 0 评论 -
Hive运行
Hive 是什么之类的就不说了。下面说说简单的安装过程。其实和hadoop很类似,毕竟是一家人嘛。1. 下载,解压apache-hive-1.2.1-bin.tar.gz (这是本人用的版本) tar -zxvf apache-hive-1.2.1-bin.tar.gz2. 设置环境变量 vi ~/.bash_profile (添加两行原创 2015-08-28 10:23:23 · 468 阅读 · 0 评论 -
HBase运行日志记录
1.下载stable版本,我用的是hbase-1.0.1.1-bin.tar.gz 解压 tar -zxvf hbase-1.0.1.1-bin.tar.gz2. 修改环境变量 vi ~/.bash_profile export HBASE_HOME=/home/hadoop/tools/hbase-1.0.1.1 export PATH=$PATH:$HA原创 2015-08-28 14:58:45 · 3365 阅读 · 2 评论 -
数据缓存---Spring Redis Cache 缓存
数据缓存是数据处理里面重要的一环,尤其针对大量查询的时候,缓存是必不可少的步骤,能够极大的提高性能。缓存的方案有很多种,这里一起来试试Redis. Redis是何方圣神,不多说了,哈哈,后面再专门出一个Redis的,很久就想体验一把。1.Redis安装运行wget http://download.redis.io/releases/redis-3.0.6.tar.gz tar zx原创 2016-01-27 11:39:15 · 1879 阅读 · 0 评论 -
MapReduce之Reduce端Join实现
MapReduce之Helloword很简单,但是要想继续自己来写,还有很多坑要注意。这不,咱们这回来个Reduce端Join实现。网上一搜,有很多,我们要来个自己的吧。废话少说,先上传一些数据到HDFS上。input/pd.csv(假设这个是产品名称文件)1,a,apple2,b,orange3,c,bananainput/sale.csv(假设这个是销售记录,数据和原创 2015-12-20 00:20:10 · 618 阅读 · 0 评论 -
Hadoop基础之---配置
Hadoop基础之---配置话说Hadoop的配置文件是相当多的,这里列出一些注意的,常用的。为什么要这么多配置,,配置就是为了方便配置,废话。因为很多时候代码里面写了很多Magic Number或者固定的路径或者固定的策略,而不同的环境,不同的需求可能会与默认的不同,所以需要修改,就放到配置文件里面,这样就可以随心所欲的设置了,而不用重新修改代码编译。1.hadoop-env原创 2015-08-21 14:53:23 · 1530 阅读 · 0 评论 -
Hive文件格式
数据库是用来保存数据的,废话,那么数据是怎么保存起来的,肯定每种数据库都有自己的存储格式。商业的数据库外人都不知道里面是怎么保存的。我们知道Mysql就有好几种不同的引擎,如ISAM、MyISAM、HEAP、InnoDB和Berkley(BDB)等等。 Hive 支持多种格式的文件,包括文本,SeqFile,RCFile,AvroFile,ORCFile ParquetFile等,还可以自定义文件原创 2015-08-28 11:08:15 · 2138 阅读 · 0 评论 -
Hive 查询
HIVE是一个数据仓库系统,这就意味着它可以不支持普通数据库的CRUD操作。CRUD应该在导入HIVE数据仓库前完成。而且鉴于 hdfs 的特点,其并不能高效的支持流式访问,访问都是以遍历整个文件块的方式。hive 0.7 之后已经支持索引,但是很弱,尚没有成熟的线上方案。关于 hive 的删除和更新有如下办法:一、行级的更新和删除:通过 hbase 进行。数据保存在HBase原创 2015-08-28 14:52:18 · 579 阅读 · 0 评论 -
MongoDB-3运行笔记
MongoDB 是神马,暂且不表,可以自己搜搜。最近试试3.0版本与以前的版本有不少变化 ,写下备忘。一。基本操作1.下载安装并启动本人安装在 D:\app\mongo\bin (可以添加到Path中)在cmd运行mongod.exe --dbpath d:\app\mongo\data --port 1234 启动另外一个cmdmongo.ex原创 2015-08-07 17:02:05 · 587 阅读 · 0 评论