
hadoop-hive
l_lushuang
只有很好地努力才会有你想要得到的东西
展开
-
hive 执行sql出现报错 引申出来的mapjoin相关
hive使用版本:在Hive v0.7之前,需要给出MapJoin的指示,Hive才会提供MapJoin的优化。Hive v0.7之后的版本已经不需要给出MapJoin的指示就进行优化MapJoin :在Map阶段进行表之间的连接,节省Shuffle阶段时要进行的大量数据传输MapJoin的实现方法:1)在Map-Reduce的驱动程序中使用静态方法DistributedCache.addCacheFile()增加要拷贝的小表文件。 JobTracker在作业启动之前会获取这个UR...原创 2020-12-23 11:56:37 · 613 阅读 · 0 评论 -
Hive之Java操作jdbc以及脚本实现
通过Java 操作hive的连接和脚本操作hive的连接demo转载 2017-04-10 13:58:55 · 5272 阅读 · 1 评论 -
Hive中order by,sort by,distribute by,cluster by
源博客地址:http://blog.youkuaiyun.com/lzm1340458776/article/details/43306115一:order byorder by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。关于order by的详细介绍请参考这篇文章:Hive Or转载 2017-05-15 14:23:01 · 320 阅读 · 0 评论 -
hive多分隔符问题
源博客地址:http://blog.youkuaiyun.com/sunlei1980/article/details/46602445问题描述: 大数据维稳需求中,客户提供的测试数据为多个字符做分隔符('|#'),在pig中会直接报错,hive中只认第一个分隔符。由于数据量比较大(160G),在文本中替换成单个字符分隔符已不现实,以下提供两个方案解决这一问题。转载 2017-05-26 16:32:25 · 1315 阅读 · 0 评论