
hive
文章平均质量分 66
baiyangfu
富贵有定数,学问则无定数。求一分,便得一分。一个大牛说的,共勉
展开
-
hive 优化遇到的一个问题:hive.auto.convert.join
hive的join 有一种优化的方式:map join但是,使用这种优化的时候要小心一点,先说一下优化配置的参数:set hive.optimize.correlation=trueset hive.auto.convert.join=true当运行一个比较大的join时候,出现了下面的问题:at org.apache.hadoop.hive.ql.exec.MapOperato原创 2013-11-21 17:29:34 · 16930 阅读 · 0 评论 -
hive 优化总结 持续更新
hive 优化总结:使用limit 的时候 可以只扫描部分文件: hive.limit.optimize.enable true Whether to enable to optimization to try a smaller subset of data for simple LIMIT first. hive.limit.row.m原创 2013-05-30 09:53:19 · 1661 阅读 · 0 评论 -
hive 元数据升级
hadoop集群升级到HA模式,core-site.xml 的配置:fs.defaultFS 会变成 hdfs://clusterid 的形式,与之前的 hdfs://{namenode hostname} 的形式有很大的区别。而对于hive旧的matadata,表的存储路径还是hdfs://{namenode hostname} 会造成,从hdfs上load到表的时候出现类似问题:原创 2013-12-05 11:41:21 · 4106 阅读 · 3 评论 -
hive 自带 function
hive 自带了很多函数,从网上搜集了一些,总结一下。主要的资料来源:http://www.oratea.net/?cat=15&paged=2hive 的自带 函数LIKE比较: LIKE语法: A LIKE B操作类型: strings描述: 如果字符串A或者字符串B为NULL,则返回NULL;如果字符串A符合表达式B的正则语法,则为TRUE转载 2013-11-22 18:52:49 · 4389 阅读 · 0 评论 -
hive 模拟update 操作
在使用hive构建数据仓库的时候,经常会遇到从mysql或者oracle数据导入到hive中。一般情况下,每天导一次数据,有些数据需要更新操作,最典型的例子就是订单数据,比如:订单创建时间订单导入hive时间订单更新时间2015-07-01 12:09:112015-07-02 00:30:002015-07-02 20:07:12原创 2015-07-13 19:55:52 · 5221 阅读 · 0 评论 -
hive 使用心得
1、遇到内存不够怎么办一般情况下是reduce端内存溢出,设置以下参数: set mapreduce.reduce.java.opts=-Xmx10000M; set mapreduce.reduce.memory.mb=10000; set mapreduce.reduce.tasks=64;2、遇到异常数据,比如原创 2015-04-15 19:28:58 · 1403 阅读 · 0 评论