
hive
kntao
互联网行业广告含义,分布式数据存储,大数据计算。
展开
-
通过学生-课程关系表,熟悉hive语句
1、在hive中创建以下三个表。create table student(Sno int,Sname string,Sex string,Sage int,Sdept string)row format delimited fields terminated by ','stored as textfile;create table course(Cno int,Cname string原创 2012-08-03 17:34:22 · 4966 阅读 · 1 评论 -
一个hive任务的分析
一位开发人员每天跑相同的任务,但是他发现某一天同样的任务处理大约差不多量的数据(都是大约4亿条,hive count的结果),处理时间却相差3倍之多,一个不到一个小时,一个运行了三个小时,记录一下分析步骤。1. 首先用explain看一下hive语句执行步骤再去找对应的job任务。 可以看出此sql语句分4个任务去跑。Stage-1:执行join操作Stage-2:根据St原创 2013-10-17 15:03:58 · 8302 阅读 · 1 评论 -
hive 优化 tips
一、 Hive join优化1. 尽量将小表放在join的左边,我们使用的Hive-0.90,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L)参数控制(默认是25M),如果表文件大小在25M左右,可以适当调原创 2013-10-17 15:40:21 · 5155 阅读 · 0 评论 -
hive 实现 udf row_number 以及遇到的问题
为hive的每条数据添加row_number, 首先添加行号,必须考虑到数据必须放在一个reduce中去执行。先上代码package xx.xxxxx.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.udf.UDFType;@UDFType(determinis原创 2013-11-08 18:24:54 · 6044 阅读 · 0 评论 -
hive 非等值连接sql写法
hive不支持非等值连接 join操作。如:select * from tonyjointest b join rtb_requests a on b.domain like a.domian%);但可以转化成这样:select * from tonyjointest b join rtb_requests a on (true) where b.doma原创 2013-12-20 14:31:08 · 13798 阅读 · 3 评论 -
怎样去找出线上hive或mapreduce运行慢的原因
hive mapreduce 都会转成java。所以要用的java分析工具。当看到map或reduce 阶段运行缓慢,我们去线上找到mapreduce的进程:1. top 发现进程:2. top -Hp 32486 找到进程中cpu或mem磁盘消耗最高的线程:3. 用jstack主要用来查看某个Java进程内的线程堆栈信息:bin/jstack -F 26510原创 2014-08-19 16:30:42 · 9746 阅读 · 0 评论