hive
文章平均质量分 52
oaimm
hadoop菜鸟
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive join
原理 hive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则将被翻译成一个reduce,否则将被翻译成多个map-reduce任务。 eg: SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)将被翻译成1个map-reduce任转载 2014-02-28 18:38:26 · 623 阅读 · 0 评论 -
hive youhua
Currently, some relevant settings are: NameNode Heap Size: 4096mb DataNode maximum Java heap size: 4096mb Hadoop maximum Java heap size: 4096mb Java Options for MapReduce tasks: 768mb set map原创 2014-03-11 13:15:07 · 670 阅读 · 0 评论 -
FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
Total MapReduce jobs = 1 14/08/24 20:29:11 WARN conf.Configuration: mapred.max.split.size is deprecated. Instead, use mapreduce.input.fileinputformat.split.maxsize 14/08/24 20:29:11 WARN con原创 2014-08-26 14:03:08 · 10683 阅读 · 0 评论 -
neicun
OOM 从进程入手: HADOOP 5个守护进程,HADOOP_HAPSIZE 参数设置每个守护进程的内存大小,hadoop_namemode_opt 存储每个块的索引信息,既然是name的还有个secondarynode_opt。 再说说MAP和reduce MR任务分配是根据Containers分配,数量由CPU core+内存来确定,mapred.taskacker原创 2014-05-28 18:43:24 · 1072 阅读 · 0 评论 -
Hive下的变量使用
Hive下的变量使用 博客分类: Hive Hive变量 Hive的变量前面有一个命名空间,包括三个hiveconf,system,env,还有一个hivevar 1. hiveconf的命名空间指的是hive-site.xml下面的配置变量值。 2. system的命名空间是系统的变量,包括JVM的运行环境。 3. env的命名空间,是指环境变量,转载 2014-03-13 15:20:37 · 921 阅读 · 0 评论 -
Hive 内建操作符与函数开发
Hive 内建操作符与函数开发 目录: 初始Hive Hive安装与配置 Hive 内建操作符与函数开发 Hive JDBC hive参数 Hive 高级编程 Hive QL Hive Shell 基本操作 hive 优化 Hive体系结构 Hive的原理 配套视频课程转载 2014-03-12 15:57:40 · 1722 阅读 · 0 评论 -
hive-site.xml for hive-0.12.0
原文地址:http://blog.yidooo.net/archives/apache-hive-installation.html 安装前 在安装Hive之前,请保证已经安装了Hadoop。 Apache Hive安装及配置 安装Mysql 本文选用mysql作为Hive的metastore。 帮助 1转载 2014-03-04 14:11:00 · 2061 阅读 · 0 评论 -
hive set
You need to use the special hiveconf for variable substitution. e.g. hive> set CURRENT_DATE='2012-09-16'; hive> select * from foo where day >= '${hiveconf:CURRENT_DATE}' similarly, you could pass转载 2014-03-12 17:08:05 · 1073 阅读 · 0 评论 -
笛卡尔积
引言 在前篇文章中(SQL查询入门(上篇),我对数据库查询的基本概念以及单表查询做了详细的解释,本篇文章中,主要说明SQL中的各种连接以及使用范围,以及更进一步的解释关系代数法和关系演算法对在同一条查询的不同思路。 多表连接简介 在关系数据库中,一个查询往往会涉及多个表,因为很少有数据库只有一个表,而如果大多查询只涉及到一个表的,那么那个表也往往低于第三范式,存在大量冗余和异常。转载 2014-04-01 18:25:22 · 11254 阅读 · 0 评论 -
hive 常用命令
建表: create table b (id int,name string) row format DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS SEQUENCEFILE; load data local inpath '/tmp/test1' into table a;原创 2014-02-28 19:00:45 · 798 阅读 · 0 评论 -
hive bug
use dw; ALTER TABLE DWS_SELLER_DELIVERY_STAT_D DROP PARTITION(DT<'TIMEPROCESS(${DATE},1)');原创 2014-04-24 14:12:00 · 696 阅读 · 0 评论 -
yarn is running beyond physical memory limits 问题解决
URL: http://I149-43:8005/taskdetails.jsp?jobid=job_1397098636321_27548&tipid=task_1397098636321_27548_r_000016 ----- Diagnostic Messages for this Task: Container [pid=7830,containerID=container_13原创 2014-05-08 13:22:00 · 33866 阅读 · 3 评论
分享