
hive
文章平均质量分 56
duncanboy
这个作者很懒,什么都没留下…
展开
-
hive常见优化问题汇总
有充分利用起来,都是白扯淡。比如:(1) 启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做 通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是模型设计,好的模型特别重要.(2) 合理设置reduce个数reduce个数过少没有真正发挥hadoop并行计算的威力,但reduce个数过多,会造成大量小文件问题,数据量、资源情况只有自己最清楚,找到个折衷点,(3) 使用hive.exec.parallel参数控制在同一原创 2016-04-11 11:20:36 · 174 阅读 · 0 评论 -
hive创建表是报错: Specified key was too long; max key length is 767 bytes
ception(message:javax.jdo.JDODataStoreException: An exception was thrown while adding/validating class(es) : Specified key was too long; max key length is 767 bytescom.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max原创 2015-07-13 09:19:12 · 216 阅读 · 0 评论 -
hive having count 不能去重
AILED: SemanticException [Error 10002]: Line 1:95 Invalid column reference 'sex' hive (default)> select username from t_test_phonenum where ds=20150701 group by username having count(sex)>1 limit 10; Total MapReduce jobs = 1L2015-07-03 11:10:03 · 504 阅读 · 0 评论 -
Hive分析窗口函数 LAG,LEAD,FIRST_VALUE,LAST_VALUE
ER,RANK,DENSE_RANK继续学习这四个分析函数。注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,Hive分析窗口函数(一)SUM,AVG,MIN,MAx)Hive版本为 apache-hive-0.13.1数据准备:cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie1,2015-04-10原创 2015-05-25 10:37:46 · 347 阅读 · 0 评论 -
Hive几种导出数据方式
get_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据,会报错--只能使用insert overwrite local directory来导出数据 --hive0.11版本之前,只能使用默认分隔符^A(ascii码是\00001)insert overwrite local directory '/home/sopdm/wrk'select id,name,tel,age from sopdm.wyp;原创 2015-05-11 21:31:05 · 137 阅读 · 0 评论 -
hive 客户端查询报堆内存溢出解决方法
2015-03-25 21:32:11 · 537 阅读 · 0 评论 -
hive DDL语法汇总
new_comment); 3、添加表分区hive> ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...; hive> ALTER TABLE page_view ADD PARTITION (dt='2008-08-0原创 2015-03-25 20:30:53 · 195 阅读 · 0 评论 -
hive 数据插入DML语法汇总
2015-03-17 21:28:23 · 95 阅读 · 0 评论 -
Hive中的排序语法
educe任务上,这样会导致在大数量的情况下,花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下,必须指定 limit 否则执行会报错。hive> set hive.mapred.mode=strict;hive> select * from test order by id;FAILED: SemanticException 1:28 In strict mode, if ORDER BY is原创 2015-03-17 10:16:12 · 204 阅读 · 0 评论 -
HIVE 窗口及分析函数
函数 说明RANK() 返回数据项在分组中的排名,排名相等会在名次中留下空位DENSE_RANK() 返回数据项在分组中的排名,排名相等会在名次中不会留下空位NTILE() 返回n分片后的值ROW_NUMBER() 为每条记录返回一个数字 Rank、DENSE_RANKRANK()在出现等级相同的元素时预留为空,DENSE_RANK()不会。Eg:某产品类型有两个并列第一RAN原创 2015-02-06 19:23:46 · 97 阅读 · 0 评论 -
hive实例讲解实现in和not in子句
原创 2014-12-01 13:26:46 · 217 阅读 · 0 评论 -
hive常见优化问题汇总
一、总体思想http://blog.youkuaiyun.com/u011750989/article/details/120243011、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标再好的硬件没有充分利用起来,都是白扯淡。比如:(1) 启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做 通常来说前面的任务启动可以稍带一起做的事情就一起...原创 2016-04-11 11:20:36 · 265 阅读 · 0 评论 -
hive with查询用法及CTAS的使用
m src where key = '5')select *from q1; -- from stylewith q1 as (select * from src where key= '5')from q1select *; -- chaining CTEswith q1 as ( select key from q2 where key = '5'),q2 as ( select key from src where key = '2015-11-04 17:48:02 · 486 阅读 · 0 评论 -
hive array、map、struct使用
K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过M['group']来获取Arrays:array中的数据为相同类型,例如,假如array A中元素['a','b','c'],则A[1]的值为'b'Struct使用建表:[plain] view plaincopy hive> create table student_test(id INT, info s原创 2015-11-06 19:40:35 · 118 阅读 · 0 评论 -
hive 行转列和列转行的方法
5c d 6变为:a b 1,2,3c d 4,5,6 2、数据test.txta b 1 a b 2 a b 3 c d 4 c d 5 c d 6 3、答案1.建表drop table tmp_jiangzl_test;create table tm2015-11-06 19:56:05 · 367 阅读 · 0 评论 -
hive-数据倾斜解决详解
2016-04-11 11:11:11 · 148 阅读 · 0 评论 -
抽样类型详细说明
有着本质区别的抽样类型。概率抽样是依据概率论的基本原理,按照随机原则进行的抽样,因而它能够避免抽样过程中的人为误差,保证样本的代表性;而非概率抽样则主要是依据研究者的主观意愿、判断或是否方便等因素来抽取对象,它不考虑抽样中的等概率原则,因而往往产生较大的误差,难以保证样本的代表性。 概率抽样与非概率抽样又各自包括了许多具体类型。分别适用于不同调查对象。联系实际认识概率抽样的不同类型及其适用性是掌握抽样方法的关键。 (一)概率抽样 概率抽样又称随机抽样,是指总体中每一个成员都有同等的进入样本的可能性,即原创 2016-03-24 10:41:11 · 1875 阅读 · 0 评论 -
hive配置详解
n Join 转化为 Map Join,从而加快大表关联小表的 Join 速度。 2、hive.groupby.skewindata 默认值为false用于决定 group by 操作是否支持倾斜的数据,即将数据进行负载均衡。原理是,在Group by中,对一些比较小的分区进行合并。 3、hive.default.fileformat 默认值为TextFileHive 默认的输出文件格式,与创建表时所指定的相同,可选项为 'TextFile' 、 'SequenceFile' 或者原创 2016-03-18 10:48:52 · 147 阅读 · 0 评论 -
hive打开调试信息方法
原创 2016-03-17 17:53:26 · 143 阅读 · 0 评论 -
set hive.groupby.skewindata与数据倾斜
设置方法为设置hive.groupby.skewindata参数 hive (default)> set hive.groupby.skewindata;hive.groupby.skewindata=false 默认该参数的值为false,表示不启用,要启用时,可以set hive.groupby.skewindata=ture;进行启用。当启用时,能够解决数据倾斜的问题,但如果要在查询语句中对多个字段进行去重统计时会报错。 hive> set2016-03-16 10:03:57 · 279 阅读 · 0 评论 -
hive:[Fatal Error] Operator FS_14 (id=14): Number of dynamic partitions exceeded
2016-03-10 10:44:47 · 150 阅读 · 0 评论 -
Hive中Join的原理和机制
原创 2016-01-22 20:36:34 · 137 阅读 · 0 评论 -
hive 随机抽样
原创 2016-01-22 20:23:47 · 509 阅读 · 0 评论 -
hive 分组取每个组中的top N条记录
原创 2016-01-22 10:00:08 · 862 阅读 · 0 评论 -
hive文件合并方法
原创 2015-12-26 17:40:09 · 337 阅读 · 0 评论 -
hive 查看一个表的总文件大小方法
awk '{a+=$1}END{print a}'32347122009 这样可以省去自己相加,下面命令是列出该表的详细文件列表hadoop fs -ls /user/hive/warehouse/test_table/ds=20151111 方法二:查看该表总容量大小,单位为G hadoop fs -du /user/hive/warehouse/test_table|awk ' { SUM += $1 } END { print SUM/(1024*1024*1024) }2015-11-12 18:02:17 · 1695 阅读 · 0 评论 -
hive-数据倾斜解决详解
hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案 1、join的key值发生倾斜,key值包含很多空值或是异常值这种情况可以对异常值赋一个随机值来分散key如:select userid,name from user_inf...2016-04-11 11:11:11 · 783 阅读 · 0 评论 -
抽样类型详细说明
抽样的类型 根据抽取对象的具体方式,人们把抽样分为许多不同的类型。总的来说,各种抽样都可以归为概率抽样与非概率抽样两大类。这是两种有着本质区别的抽样类型。概率抽样是依据概率论的基本原理,按照随机原则进行的抽样,因而它能够避免抽样过程中的人为误差,保证样本的代表性;而非概率抽样则主要是依据研究者的主观意愿、判断或是否方便等因素来抽取对象,它不考虑抽样中的等概率原则,因而往往产生较大的误差,难以...原创 2016-03-24 10:41:11 · 6150 阅读 · 0 评论 -
hive配置详解
hive中有许多配置将帮助我们提升性能,其详细配置如下: 1、hive.auto.convert.join 默认值为true是否根据输入小表的大小,自动将 Reduce 端的 Common Join 转化为 Map Join,从而加快大表关联小表的 Join 速度。 2、hive.groupby.skewindata 默认值为false用于决定 group by 操...原创 2016-03-18 10:48:52 · 177 阅读 · 0 评论 -
Hive几种导出数据方式
Hive几种导出数据方式 1.拷贝文件 如果数据文件恰好是用户需要的格式,那么只需要拷贝文件或文件夹就可以。hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据,会报错--只能使用insert overwrite l...原创 2015-05-11 21:31:05 · 270 阅读 · 0 评论 -
hive 客户端查询报堆内存溢出解决方法
hive> select * from t_test where ds=20150323 limit 2;OKException in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因: hive堆内存默认为256M 这个问题的解决方法为:修改/usr/lib/hive/bin/hive...2015-03-25 21:32:11 · 1011 阅读 · 0 评论 -
hive DDL语法汇总
hive DDL语法汇总1、对表重命名hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comment); 3、添加表分区hive> ALTER...原创 2015-03-25 20:30:53 · 214 阅读 · 0 评论 -
hive 数据插入DML语法汇总
Hive的数据插入DML语法汇总1、Loading files into tables语法:1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释:1)、上面命令执行环境为hive客户端环境下: hive>...2015-03-17 21:28:23 · 380 阅读 · 0 评论 -
Hive中的排序语法
Hive中的排序语法 2014.06.22ORDER BYhive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序,这意味着所有的数据会传送到一个Reduce任务上,这样会导致在大数量的情况下,花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下,必须指定 limit 否则执行会报错。...原创 2015-03-17 10:16:12 · 271 阅读 · 0 评论 -
HIVE 窗口及分析函数
窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 一、分析函数用于等级、百分点、n分片等。函数 说明RANK() 返回数据项在分组中的排名,排名相等会在名次中留下空位DENSE_RANK() 返回数据项在分组中的排名,排名相等会在名次中不会留...原创 2015-02-06 19:23:46 · 133 阅读 · 0 评论 -
hive 客户端查询报堆内存溢出解决方法
hive> select * from t_test where ds=20150323 limit 2;OKException in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因: hive堆内存默认为256M 这个问题的解决方法为:修改/usr/lib/hive/bin/hive-con原创 2016-01-04 10:30:57 · 7212 阅读 · 1 评论 -
hive DDL语法汇总
hive DDL语法汇总1、对表重命名hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comment); 3、添加表分区hive> ALTER TABLE tabl原创 2016-01-04 10:30:46 · 659 阅读 · 0 评论 -
hive 数据插入DML语法汇总
Hive的数据插入DML语法汇总1、Loading files into tables语法:1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释:1)、上面命令执行环境为hive客户端环境下: hive>load原创 2016-01-04 10:30:29 · 377 阅读 · 0 评论 -
Hive中的排序语法
Hive中的排序语法 2014.06.22ORDER BYhive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序,这意味着所有的数据会传送到一个Reduce任务上,这样会导致在大数量的情况下,花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下,必须指定 limit 否则执行会报错。原创 2016-01-04 10:30:24 · 312 阅读 · 0 评论 -
HIVE 窗口及分析函数
窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 一、分析函数用于等级、百分点、n分片等。函数 说明RANK() 返回数据项在分组中的排名,排名相等会在名次中留下空位DENSE_RANK() 返回数据项在分组中的排名,排名相等会在名次中不会留下空位NTILE()原创 2016-01-04 10:29:50 · 659 阅读 · 0 评论