- 博客(25)
- 收藏
- 关注
转载 HBase自定义hbase协处理器endpoint和遇到的问题
hbase rpc采用protobuf作为数据交换格式,自定义协处理器需要先创建一个protobuf作为rpc的client端和server端的数据请求和响应载体,在windows环境下需下载protobuf工具,如:protoc-2.5.0-win32.zip地址:http://download.youkuaiyun.com/detail/javajxz008/9616971解压至文件夹protoc-...
2019-07-01 23:34:49
552
原创 Bulk Load-HBase数据导入最佳实践
一、概述HBase本身提供了很多种数据导入的方式,通常有两种常用方式:1、使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase2、另一种方式就是使用HBase原生Client API这两种方式由于需要频繁的与数据所存储的RegionServer通信,一次性入库大量数据时,特别占用资源,所以都不是最有效的。了解过HBase底层原理...
2019-07-01 23:33:44
376
原创 bitmap类型数据导入hbase
create 'hfiletableBitmap','fm1','fm2'准备数据:vim data_bitmap.txtkey1 fm1:col1 100key1 fm1:col2 200key1 fm2:col1 300key4 fm1:col1 400hadoop fs -put data_b...
2019-07-01 23:33:04
1287
转载 spark sql中的udf和udaf实现
今天没什么事,突然想起之前写过的sqark中SQL中的UDAF方法,这个还是挺有意思的,难度比蜂房中UDAF高,其中直接体现了火花的分而治之的细想,所以打算今天的博客在加一个火花SQL的UDF和UDAF编写。直接进入正题。1.udf函数的编写.sqlContext.udf.register(“CTOF”,(degreesCelci...
2019-07-01 22:29:40
313
原创 linux安装protobuf( java开发)
说明:protobuf已经全面迁移到github,地址:https://github.com/google/protobuf直接下载2.6.1版本:https://github.com/google/protobuf/archive/v2.6.1.zip$wget https://github.com/google/protobuf/archive/v2.6.1.zip$unzip pro...
2019-06-27 08:27:19
829
原创 hive面试系列
导入数据mianshi.txtA,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-...
2019-06-10 22:10:58
114
原创 Hive分析窗口函数(四) LAG、LEAD、FIRST_VALUE和LAST_VALUE
数据cookie4.txtcookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie1,2015-04-10 10:50:05,url6cookie1,2015-04-10 11:00:00,url7cookie1,2015-04-10 ...
2019-06-04 21:13:04
697
原创 hive 数据分析函数之三ROW_NUMBER,RANK,DENSE_RANK
ROW_NUMBER() 的应用场景非常多 :不并列不留空位RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位DENSE_RANK() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位select cookieid,cookietime,pv,rank() OVER(partition by cookieid order by pv ) as pv1,dense_...
2019-06-04 20:34:52
219
原创 hive 数据分析窗口函数之五 GROUPING SETS GROUPING__ID CUBE ROLLUP
概述:GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。cookie5.txt2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03,2015-03-12,cookie72015-...
2019-06-04 19:33:33
250
原创 hive order by group by
1.order by 全局排序,只有一个reduce,所以一般不用,使用场景可以理解为:一个输出文件2.窗口函数中的 order by 并不是只有一个 reduce3.group by 相同的key进入为一组, 不同的key可以进入一个reduce ,但是相同的key一定在一个reduce ,...
2019-06-04 07:19:47
885
原创 hive union all
功能:将两个表中的 相同的字段拼接到一起特点:union all不去重,数据会重复 ,hive不支持unionunion all必须满足如下要求字段名字一样字段类型一样字段个数一样子表不能有别名如果需要从合并之后的表中查询数据,那么合并的表必须要有别名select * from (select * from munion allselect * from n)temp;...
2019-06-03 22:36:10
4324
原创 Hive-mapjoin
hive的高级查询设置mapjoin二种方式第一种:set hive.auto.convert.join=true;第二种查询时: select /*+mapjoin(n)*/ age from table1 join on xx=xx;建表:create table test1(cookieid string,cookietime string,pv int);测试数据:...
2019-06-03 21:20:45
288
转载 理解数据仓库中星型模型和雪花模型
原 理解数据仓库中星型模型和雪花模型 2017年07月06日 18:32:27 葬月魔帝 阅读数:13386 ...
2019-06-03 15:40:55
384
转载 Hive开窗函数总结
[转载](https://blog.youkuaiyun.com/Abysscarry/article/details/81408265)背景: 平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多...
2019-06-01 11:32:35
305
转载 hive 学习系列 hive 常用数据清洗函数
1,case when 的利用,清洗诸如评分等的内容,用例如下。case when new.comment_grade = '五星商户' then 50 when new.comment_grade = '准五星商户' then 45 when...
2019-05-31 11:24:03
500
转载 hive 学习系列四(UDF)
如果入参是简单的数据类型,直接继承UDF,实现一个或者多个evaluate 方法。具体流程如下:1,实现大写字符转换成小写字符的UDFpackage com.example.hive.udf;import org.apache.hadoop.hive.ql...
2019-05-31 11:17:56
475
转载 Spark性能优化指南——高级篇
前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合+全局聚合)解决方案五:将reduce join转为map join...
2019-05-31 10:46:03
129
转载 Spark性能优化指南——基础篇
前言开发调优调优概述原则一:避免创建重复的RDD原则二:尽可能复用同一个RDD原则三:对多次使用的RDD进行持久化原则四:尽量避免使用shuffle类算子原则五:使用map-side预聚合的shuffle操作原则六:使用高性能的算子原则七:广播大变量原则八:使用Kryo优化序列化性能原则九:优化数据结构资源调优调优概述Spark作业基本运行原理资源参数调优...
2019-05-31 10:42:21
129
转载 Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的...
2019-05-31 10:34:25
171
转载 spark 性能优化|12 个优化方法
原文:http://litaotao.github.io/boost-spark-application-performance本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文...
2019-05-31 10:32:30
364
转载 Spark的性能调优(1)
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,ta...
2019-05-31 10:29:06
195
转载 Spark性能优化:数据倾斜调优
前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计...
2019-05-31 10:27:18
129
转载 spark内核揭秘-14-Spark性能优化的10大问题及其解决方案
问题1:reduce task数目不合适解决方案: 需要根据实际情况调整默认配置,调整方式是修改参数Spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce的task数目即spark.def...
2019-05-31 10:23:54
123
转载 Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整...
2019-05-31 10:20:57
125
转载 Flink 原理与实现:理解 Flink 中的计算资源
<div class="htmledit_views" id="content_views"> <p class="blog-summary" style="margin-bottom:32px;padding:20px 32px;background:rgb(249,249,249);font-size:12px;line-height:24px...
2019-04-19 22:29:25
619
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人