
hive
文章平均质量分 75
不爱吃红萝卜
这个作者很懒,什么都没留下…
展开
-
hive优化之控制hive任务中的map数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有转载 2015-04-21 10:38:22 · 385 阅读 · 0 评论 -
hive优化之控制hive任务中的reduce数
1. Hive自己如何确定reduce数: reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) hive.exec.reducers.max(每个任务最大的redu转载 2015-04-21 10:46:50 · 590 阅读 · 0 评论 -
hive中的map/reduce
MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce 任务的输入数据。Reduce 任务的主要目标就是把前面若干个Map 的输出汇总到原创 2015-05-11 11:11:07 · 1412 阅读 · 0 评论 -
hive 数据倾斜
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。一、 空值数据倾斜场景:如日志中,常会有信息丢失的问题,比如全网日志原创 2015-05-13 10:03:50 · 1018 阅读 · 0 评论 -
Hive——SerDe
一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。3、Hive可以方便的将数据加载到表中而不需要对数转载 2015-05-07 16:21:16 · 503 阅读 · 0 评论 -
hive中求top k的两种方式
一、用rank() over()select *from ( select event_id, event_name, channel, pv, uv, rank() over (partition by channel order by pv desc,uv desc) as rank from ( selec原创 2015-06-10 19:20:41 · 4604 阅读 · 0 评论