
HIVE
难得糊涂_不解释
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive存储格式对比
hive 存储格式对比原创 2022-10-18 17:53:24 · 687 阅读 · 0 评论 -
hive关于fetch.task优化
hql默认是需要转成mapreduce任务去执行的,但是一些场景启动mapreduce,比较消耗资源而且时间很慢,所以hive对于查询做了优化,有些查询是可以不启动mapredce去执行的,即按照fetch task 的方式去执行,实际上就是单进程的文件处理,输出结果在hive-site.xml中有三个fetch task相关的值,也可以在客户端直接执行 set …hive.fetch.task.conversionhive.fetch.task.conversion.threshold #在输入大小原创 2020-12-24 10:06:30 · 793 阅读 · 0 评论 -
hive获取执行结果报错java.io.IOException: Could not find status of job:
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$PathComponentTooLongException): The maximum path component name limit of job_1593052953461_11181364-1605859463298-data%2Dplatform-insert+into+table+con...%2C.原创 2020-11-20 16:15:16 · 2085 阅读 · 0 评论 -
hive建表分隔符问题
默认的分隔符:hive 默认的字段分隔符为ascii码的控制符\001,建表的时候用fields terminated by ‘\001’,如果要测试的话,造数据在vi 打开文件里面,用ctrl+v然后再ctrl+a可以输入这个控制符\001。按顺序,\002的输入方式为ctrl+v,ctrl+b。以此类推。指定特定的特殊符号作为分隔符:CREATE TABLE test(id int, name string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY原创 2020-08-30 15:31:58 · 3886 阅读 · 0 评论 -
hive提交任务指定队列
set mapred.job.queue.name=queue1; 老版本set mapred.queue.names=queue1; 老版本SET mapreduce.job.queuename=queue31; 新版本mapreduce指定对列名称-Dmapreduce.job.queuename=queue1原创 2020-07-27 15:38:34 · 2982 阅读 · 2 评论 -
hive误删除表,异常停止进程
1报错- Failed with exception Unable to alter partition. Put request failed : UPDATE `PARTITION_PARAMS` SET `PARAM_VALUE` = ? WHERE `PART_ID`=? AND `PARAM_KEY`=? INFO - FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Una原创 2020-07-22 17:06:36 · 1204 阅读 · 0 评论 -
GenericUDF udf在不同数据压缩格式下的处理
package com.**.udf;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;import org.apache.hadoop.hive.ql.metadata.HiveExcepti...原创 2020-03-17 18:57:48 · 300 阅读 · 0 评论 -
hive通过元数据查询表数据量
orc存储的表默认保存文件数和文件大小,textfile存储的保存数据条数 select * from TBLS where TBL_NAME='tablename'; select * from TABLE_PARAMS where TBL_ID='111'; select * from PARTITIONS where tbl_id=111;select * from PARTI...原创 2020-02-20 20:52:14 · 3582 阅读 · 0 评论 -
hive动态分区最大分区问题
```set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=10000;set hive.exec.max.dynamic.partitions=10000;set hive.exec....原创 2020-02-12 12:17:54 · 1894 阅读 · 0 评论 -
hive合并小文件
set hive.merge.mapfiles=true;set hive.merge.mapredfiles=true;set hive.merge.orcfile.stripe.level=true;set hive.merge.size.per.task=256000000;set hive.merge.smallfiles.avgsize=256000000;set mapred...原创 2019-12-25 10:09:27 · 577 阅读 · 0 评论 -
hive array、collect_list、collect_set、concat_ws
1、array():将两列合并为一列 如 将a字段 和b字段 合并为 c字段hive> select array(a,b) from temp.xxxx;OK[“aa”,“aa”][“aa”,“cc”][“aa”,“bb”][“bb”,“33”][“bb”,“11”]2、collect_list():根据某个字段分组后,把分在一组的数据合并在一起,默认分隔符’,’不去重,无...原创 2019-12-23 10:49:18 · 6331 阅读 · 0 评论 -
hive MSCK命令
MSCK REPAIR TABLE table_name;hive 根据文件添加分区原创 2019-09-23 15:03:42 · 922 阅读 · 0 评论 -
sqoop抽数的数据中有换行符
sqoop抽过来的表有换行符,导致使用hive的时候去重有问题原创 2019-08-18 23:02:43 · 500 阅读 · 0 评论 -
HIVE json存储-非法数据处理
存储1、将json数据以string 方式存储在hive 中,然后比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名,或者 get_json_object(json,’$.id’) 的方式获取数据。2、底层用json的方式存储下载Jar使用之前先下载jar:http://www.congiu.net/hive-json-serde/如果要想在Hive中使用J...原创 2019-04-12 10:07:42 · 384 阅读 · 0 评论