
hive
三房头o
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive的配置
hive 这里简单说明一下,好对大家配置hive有点帮助。hive是建立在hadoop上的,当然,你如果只搭建hive也没用什么错。说简单一点,hadoop中的mapreduce调用如果面向DBA的时候,那么问题也就显现了,因为不是每个DBA都能明白mapreduce的工作原理,如果为了管理数据而需要学习一门新的技术,从现实生活中来说,公司又需要花钱请更有技术的人来了。 开个玩笑,hadoop...转载 2019-07-08 22:03:15 · 118 阅读 · 0 评论 -
hive简单到复杂
https://blog.youkuaiyun.com/tp15868352616/article/details/80813923转载 2019-07-09 20:59:59 · 112 阅读 · 0 评论 -
hive数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...原创 2019-08-06 21:29:05 · 167 阅读 · 0 评论 -
Hive数据倾斜解决
Hive数据倾斜解决方法总结 数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节点的red...原创 2019-08-17 15:26:30 · 297 阅读 · 0 评论 -
hive的数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶...原创 2019-09-18 16:10:50 · 111 阅读 · 0 评论 -
hive的自定义函数
Hive中UDF练习 1.截取请求地址 代码: package hiveUDF; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; /** * * 从 "GET /course/view.php?id=27 HTTP/1.1" 中获取请求地址,即 /course/view.php?i...原创 2019-09-18 16:18:27 · 248 阅读 · 0 评论 -
hive的搭建使用
HIVE框架 1:可以干什么: 将SQL语句转换成MapReduce程序,并且提交到Yarn上运行,读取HDFS上的数据进行处理。 SQL语句:和MySQL数据库中SQL语句非常非常类似。 2:概念:SQL on Hadoop 建立在Hadoop之上提供以SQL方式分析数据的框架 最早的由facebook开源...原创 2019-09-19 11:11:02 · 176 阅读 · 0 评论 -
hive metaStore配置
hive中metaStore启动方式 1-默认方式 bin/hive 每次启动hive CLi都会在内部启动一个meta服务 2- Remote Metastore  ...原创 2019-09-19 11:20:50 · 161 阅读 · 0 评论