hive
文章平均质量分 68
zuoseve01
搬运工
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive 优化设置
#添加第三方jar包, 添加临时函数add jar ***.jar;#启动非严格模式,可以进行笛卡尔积连接(含非等值连接),order by不必接limit, 分区表查询where中不一定非要加分区字段set hive.mapred.mode =nonstrict;#MR框架配置set hive.execution.engine=mr; --设置执行引擎为mapreduceset mapreduce.framework.name=yarn; --设置框架为新的yarn框架#...原创 2021-03-04 16:11:35 · 627 阅读 · 1 评论 -
hive数据清洗过程csv表格字段出现分割符逗号的解决方案--转载
在创建表进行数据清洗的过程中 csv表格字段中可能存在csv表格的分割符号 ,如图此时如果还是按照原来的写法:%hivecreate external table if not exists ext_transaction_details(transaction_id string,customer_id string,store_id string,price string,product string,`date` string,time string)row format转载 2021-03-02 19:33:56 · 1123 阅读 · 0 评论 -
真正让你明白Hive参数调优系列1:控制map个数与性能调优参数--转载
1.Hive有哪些参数,如何查看这些参数Hive自带的配置属性列表封装在HiveConfJava类中,因此请参阅该HiveConf.java文件以获取Hive版本中可用的配置属性的完整列表。具体可以下载hive.src通过eclipse查看。全部属性有上千个吧,一般Hive的自带属性都是以hive.开头的,每个属性且自带详细的描述信息,其次Hive官网也有,但是属性不是特别全。Hive官方参数网址Hive除了自身带了一些配置属性,因为其底层使用的是hadoop(HDFS,MR,YARN),所以有些HAD转载 2021-02-28 22:10:51 · 504 阅读 · 0 评论 -
Hive调优-01
Hive调优前言 1.数据的压缩与存储格式 2.合理利用分区分桶 3.hive参数优化 4.sql优化 4.1 where条件优化 4.2 union优化 4.3 count distinct优化 4.4 用in 来代替join 4.5 优化子查询 4.6 join 优化 5.数据倾斜 5.1 sql本身导致的倾斜 5.2 业务数据本身的特性(存在热点key) 5.3 开启数据倾斜时负载均衡 5.4 控制空值分布 6.合并小文件 7.查看转载 2021-02-22 14:58:41 · 144 阅读 · 0 评论 -
hive中两种日期格式的转换
在解析埋点数据时会遇到两种不同的日期格式:yyyymmdd和yyyy-mm-dd,此类型之间的转换主要有两种思路:第一种方法:from_unixtime+unix_timestamp --20180905转成2018-09-05 select from_unixtime(unix_timestamp('20180905','yyyymmdd'),'yyyy-mm-dd') from dw.ceshi_data --结果如下: 2018-09-05.原创 2020-12-31 16:15:07 · 6023 阅读 · 0 评论 -
【hive】String to Date 转化大全
原文链接:http://bigdataprogrammers.com/string-date-conversion-hive/Input column name: dt (String).Replace dt with your column name.Input Format Code Output Format ddMMyyyy to_date(from_unixtime(UNIX_TIMESTAMP(dt,’ddMMyyyy’))) yyyy-MM-d.转载 2020-12-31 16:13:54 · 1938 阅读 · 0 评论
分享