
大数据
文章平均质量分 68
bigdataCoding
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大话风险-风险模型监测三道防线
构建一套完善的信贷风控全流程体系,是互联网金融平台稳健运营的关键。通过贷前、贷中、贷后的全流程风控,结合大数据、人工智能等技术,可以有效降低风险、提高效率、优化用户体验。同时,平台需要持续关注数据安全、模型优化和监管合规,以应对不断变化的市场环境和风险挑战。后端分析报告:特征性能报告、逾期分布报告、当前逾期分布报告、最大逾期分布报告、样本数据量报告、评分分箱报告、评分分布报告...原创 2025-02-15 14:59:50 · 234 阅读 · 0 评论 -
DataOps在中小银行的实践
数据中台,DataOps,敏捷数据原创 2022-02-11 09:08:59 · 653 阅读 · 0 评论 -
数据治理八字决-“沟通、组织、聚焦、文化”
随着数据价值的日益突显,从国家战略到企业规划,越来越多的企业开始进行数字战略转型,有的通过数据平台过渡到数据中台,有的直接建设数据中台。 所谓“无规矩不成方圆”,因历史原因企业在发展过程中已经形成了系统林立的情况,汇集到数据平台的数据都各具特色,缺乏标准、规范、治理的数据已经失去了使用的价值。为了规范数据处理过程,凸显数据业务价值,需对数据平台的数据进行综合管理,构建标准化、流程化、自动化、一体化的数据治理体系,确保数据架构规划合理、数据加工条理清晰、数据处理可管控、数据知识可传承。因此笔者总结数据治原创 2021-04-07 23:06:00 · 809 阅读 · 0 评论 -
Hbase的读写寻址过程
1.Hbase的写入流程客户端查找对应region 客户端根据要操作rowkey,查找rowkey对应的region。查找region的过程为通过zk获取到hbase:meta表所在region。通过查找hbase:meta可以找到要更新的表每个region的startkey、endkey以及所处机器。由于hbase的rowkey有序分布在region上,所以通过每个region的startkey...原创 2018-05-10 17:22:37 · 2707 阅读 · 0 评论 -
SparkStreaming 管理offset 存储到Hbase中
package com.demo.cn.streamingimport kafka.utils.ZkUtilsimport org.apache.hadoop.hbase.filter.PrefixFilterimport org.apache.hadoop.hbase.util.Bytesimport org.apache.hadoop.hbase.{HBaseConfiguratio...原创 2018-04-18 16:00:49 · 767 阅读 · 0 评论 -
Spark机器学习之--逻辑回归
Spark 利用逻辑回归做申请评分卡,上干货 val spark=SparkSession.builder().appName("LRTest").master("local[*]").getOrCreate() val sc=spark.sparkContext //隐式转换 val colArrayName= Array("affairs", "gender", ...原创 2018-03-08 20:35:54 · 1088 阅读 · 0 评论 -
Spark机器学习之-实时聚类算法调用
Spark MLIB中的Kmenas聚类算法,数据通过SparkStreaming 实时拉取kafka中的数据,并调用已经训练好的聚类模型;根据读取的数据实时的进行分类package com.demo.cn.streamingimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.commo...原创 2018-03-07 15:39:05 · 1756 阅读 · 1 评论 -
集成算法Bagging和Boosting的区别
bagging与boosting的概念及区别首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本).1、Bagging (bootstrap aggregating)Bagging即套袋法,其算法过程如下:A)从原始样本集中抽取训练集.每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有原创 2018-01-09 20:42:28 · 1459 阅读 · 0 评论 -
StromTrident和Hbase 实现热门搜索
统计APP中,全量用户的搜索统计,并且列出TopN 主要流程如下: 1.APP端搜索的搜索数据通过推送到Kafka中 2.Strom 与 Kafka 有 native的接口OpaqueTridentKafkaSpout 3.Storm中应用到SlidingDurationWindow即窗口统计 4. 数据写入到Hbase当中TridentHBaseMappercode: stat原创 2017-12-06 10:37:19 · 431 阅读 · 0 评论 -
Spark NLP实现本文挖掘
本机运用的技术栈为NLP(Word2Vec)关于NLP的相关理论请提前梳理清楚Spark mlib,rdd,dataframe,graph(顶点,边,连通图等基本概念)Spark 2.2.0,JDK 1.8.0 ,Scala 2.1.X如下思路图:1.如下创建一个DataFrame import spark.implicits._ val documentDF = spar...原创 2018-06-06 17:24:02 · 2055 阅读 · 1 评论 -
Datax 与 Azkaban 实现数据抽取与调度
1.什么是DataXDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式,目前已开源,代码托管在githubDataX的安装省略配置详情可见 https://github.com/alibab...原创 2018-07-26 10:41:19 · 9088 阅读 · 1 评论 -
Spark 闭包与序列化(json4s.jackson)
Spark的官方文档再三强调那些将要作用到RDD上的操作,不管它们是一个函数还是一段代码片段,它们都是“闭包”,Spark会把这个闭包分发到各个worker节点上去执行,这里涉及到了一个容易被忽视的问题:闭包的“序列化”。显然,闭包是有状态的,这主要是指它牵涉到的那些自由变量以及自由变量依赖到的其他变量,所以,在将一个简单的函数或者一段代码片段(就是闭包)传递给类似RDD.map这样的操作前,...原创 2018-08-02 10:15:00 · 1646 阅读 · 0 评论 -
Spark系列--Mlib(1)
ML Pipelines(ML管道)Pipelines的主要概念MLlib 将机器学习算法的API标准化,以便将多种算法更容易地组合成单个 Pipeline (管道)或者工作流。本节介绍Pipelines API 的关键概念,其中 Pipeline(管道)的概念主要是受到 scikit-learn 项目的启发.DataFrame(数据模型):ML API 将从Spark SQL查出来的...原创 2018-09-03 10:42:18 · 995 阅读 · 0 评论 -
HBase数据与Hive映射
背景:需要将HBase中表某列的值抽取到hive中,在hive中进行ETL的处理在hive shell中执行如下命令CREATE EXTERNAL TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROPER...原创 2018-09-19 17:59:24 · 691 阅读 · 0 评论 -
用户画像利用BitMap存储
目前项目上存储利用BitMap进行存储,比如用户id 为1001,对应的标签id A1001,setbit 1001 A1001,1 在生产中经常会出现一个用户对应多个标签因此用BitMap存储的话就很方便 package com.demo.cn.Redis;import java.util.BitSet;public class BitSetUtils { ...原创 2018-09-25 19:25:41 · 3517 阅读 · 2 评论 -
金融数据仓库系列-打造数据中台
什么是数据中台?数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台的特点:数据技术统一:统一的数据存储规范、统一的数据处理工具、统一数据存储及对海量数据进行采集、计算、存储、加工,同时统一标准和口径数据服务化:将数据模型按照应用要求做了服务封装,就构成了数据服务,这个跟业务中台中的服务概念是完全相同的及服务数据前置让业务人源充分理解业务数据更加...原创 2019-05-15 14:23:11 · 3137 阅读 · 3 评论 -
金融数据仓库系列-什么是数据仓库
一个公司里面不同项目可能用到不同的数据源,有的存在MySQL、Oracle里面,有的又存在Hive里面,甚至还有些利用爬虫爬取的第三方数据源,还有部分的影像文件系统如音频和图像等。这些数据都分散在各个源系统中,如何把各个系统整合到一起,避免数据的孤岛和数据没有打通的问题,然后进行数据分析和挖掘。此时数据仓库(Data Warehouse,DW)就派上用场了。它可以对多种业务数据进行筛选和整...原创 2019-05-11 10:37:20 · 1078 阅读 · 0 评论 -
Spark 内存管理
Storage的存储管理;Execution的内存管理;如何应对内存压力原创 2017-07-26 21:45:10 · 444 阅读 · 0 评论 -
Hive2.1.0部署
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2017-03-07 09:56:52 · 608 阅读 · 0 评论 -
Spark JobServer 安装使用
1.本文主要介绍spark job sever的调度2.关于spark job sever的安装可以参考Github的使用原创 2016-08-31 14:16:14 · 3399 阅读 · 0 评论 -
SparkSQL 实现UDF的两种方式
import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.functions._/** * Created by shilong on 16/9/12. */object sparkDataframe {原创 2016-09-12 20:26:59 · 4586 阅读 · 0 评论 -
Sparktreaming 例子
SQLContextSingleton 单利原创 2016-10-23 15:53:25 · 971 阅读 · 0 评论 -
Kafka 学习笔记
Kafka APi的理解原创 2016-09-18 20:20:54 · 546 阅读 · 0 评论 -
Java RMI 结合 (zookeeper)
有四种类型的znode(分两大类persistent和ephemeral): 1、PERSISTENT-持久化目录节点 客户端与zookeeper断开连接后,该节点依旧存在 2、PERSISTENT_SEQUENTIAL-持久化顺序编号目录节点 客户端与zookeeper断开连接后,该节点依旧存在,只是Zookeeper给该节点名称进行顺序编号 3、EPHE原创 2017-01-04 15:17:54 · 555 阅读 · 0 评论 -
Spark DataFrame中基于List的排序UDF
DataFrame中支持的类型如 Struct此类型我们是用对象进行的封装,但是要对strcut里的数据进行排序,个人想到的办法还是把struct转位Json,然后反解析Jsonsqlcontext.udf.register("stuSort", (stuList: Seq[String]) => { val rs = Option(conponList) match { ca原创 2016-12-20 09:44:34 · 1683 阅读 · 0 评论 -
Storm-JDBC 中Date类型转换bug
在Storm-JDBC的源码中,SimpleJdbcMapper中,如果Column的类型为Time,Date,TIMESTAMP的话,默认是取值转换成Long类型的,如下为源码else if(Util.getJavaType(columnSqlType).equals(Date.class)) { Long value = tuple.getLongByField(columnN原创 2017-02-04 17:59:13 · 1104 阅读 · 0 评论 -
为什么Kafka可以高效快速的存储
Kafka写入速度为什么很快原创 2017-01-05 10:36:04 · 3880 阅读 · 0 评论 -
Spark SQL内置函数的使用Spark SQL执行计划总结
个人感觉Spark SQL的优势在于UDF和DataFrame(RDD的封装,由于RDD是可以是任意类型,因此可以封装一个对象在RDD里面,spark2.0以后对DataSet做了优化,由于DataFrame是弱类型的判断,DataSet是静态类型的在数据的优化和性能上应该有更大的提升)本文的操作spark 1.6.1内置函数 需要倒入 importorg.apache.spark.s原创 2017-01-18 16:46:33 · 7784 阅读 · 0 评论 -
storm基本使用心得精华
storm基本使用与zookeepr的使用,由于Storm中Nimbus和Supervisor是无状态的,Nimbus会把topology写到到ZK当中,Supervisor会到ZK去读这些信息,实现了解耦;Storm如何确保消息的靠性原创 2017-01-09 19:08:15 · 2759 阅读 · 0 评论 -
Storm Trident使用心得
Trident 中含有对状态化(stateful)的数据源进行读取和写入操作的一级抽象封装工具,Trident 使用一种容错性的方式实现对 state 的管理,这样,即使在发生操作失败或者重试的情况下状态的更新操作仍然是幂等的,State 的更新过程支持多级容错性保证机制,考虑到可能存在的处理失败情况,tuple 有可能需要重新处理有三类支持容错性的 spout:“非事务型原创 2017-01-21 15:18:51 · 1887 阅读 · 0 评论 -
Storm和Redis native的集成
Storm-redis provides basic Bolt implementations, RedisLookupBolt and RedisStoreBolt.Storm提供了两种Blot,从Redis查询和插入Redis原创 2017-01-22 14:08:00 · 1404 阅读 · 1 评论 -
Storm和JDBC native集成
org.apache.storm.jdbc.bolt 下面有两个JDBC的bolt 实现类,分别为JdbcLookupBolt 和JdbcLookupBolt 都继承AbstractJdbcBolt 抽象方法,当有原生的JDBC方法或者C3P0连接池的时当并发大的时候可能会出现连接不到数据库的问题,官方的Storm-JDBC方法可以解决连接的问题和JDBC初始化的问题Abstr原创 2017-01-22 19:55:02 · 1858 阅读 · 0 评论 -
Storm+Kafka+Redis实现热门搜索
前面的章节已经分别讲到过Storm和Kafka,Redis的集成,由于项目中有个需求要保留统计客户的历史搜索,因为搜索的频率比较快,要让App端上客户端快速的看到自己的历史搜索,在选型上spark和Storm作为备选,Spark的吞吐量比较大但是相应的延迟比较高(spark比较适用于大数据量大统计并且对实时醒要求不是太高),因为要快速的响应客户端的调用决定用Storm并且Storm对Kafka和R原创 2017-01-23 20:33:36 · 3014 阅读 · 0 评论 -
Hbase Api 基于1.0.3版本
private static Configuration conf = null;private static Connection conn = null;/** * 获取全局唯一的Configuration实例 * * @return */private static synchronized Configuration getConf() { if (conf == null原创 2017-03-19 19:55:39 · 923 阅读 · 0 评论 -
shell 查询笔记
1.kill 占用8080端口的进程lsof -i :8080 |grep -v "PID"|awk '{print "kill -9",$2}'|sh原创 2017-03-07 18:18:18 · 462 阅读 · 0 评论 -
编译CDH版Kafka
1.在GitHub上选择需要编译点版本 https://github.com/cloudera/kafka2.安装 gradle需要2.4以上的版本,JDK1.7以上3.进入Kafka源码路径(1)cd kafka_source_dir(2)gradle原创 2016-09-15 21:56:54 · 714 阅读 · 0 评论