
Hive
文章平均质量分 54
Hive的介绍及常用语法
大数据同盟会
大数据同盟会致力传播大数据技术,帮助更多需要帮助的人,如果您也感兴趣,请扫描下方二维码 ,加入我们吧
展开
-
Hive中索引的使用
Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量原创 2022-07-14 14:33:00 · 2540 阅读 · 3 评论 -
hive删除分区部分数据
insert overwrite table t_finance_tax_bill partition (importdate='20220218')select bill_id , apply_emp_id , bill_type_name , apply_emp_name , reimbursement_name , bill_apply_date原创 2022-02-25 17:06:28 · 18690 阅读 · 2 评论 -
main ERROR Unable to invoke factory method in class class org.apache.hadoop.hive.ql.log.HushableRand
报错信息:产生原因mr将数据量小的表识别成了大表,数据量大的识别成小表,导致将数据量大的表加入到内存,导致程序异常.解决办法set hive.execution.engine=mr;set hive.mapjoin.smalltable.filesize=55000000;set hive.auto.convert.join = false; #取消小表加载至内存中...原创 2021-12-02 17:30:58 · 3492 阅读 · 1 评论 -
Hive 修复分区 msck repair table
Hive 修复分区 msck repair tableHive 修复分区 msck repair tableHive 修复分区 msck repair tableHive 修复分区 msck repair table原创 2021-11-22 16:36:10 · 8481 阅读 · 0 评论 -
hive优化
1、使用分区表和分桶表2、使用count(1),不使用count(*)3、指定明确字段,不使用select * from emp4、使用特殊的存储格式 列式存储: orc parquet5、小表 join 大表,避免笛卡尔积6、开启map端聚合,默认是打开的7、避免 count (distinct 字段)8、适当调整maptask和reducetask个数9、测试数据时,使用本地模式set mapreduce.framework.name=yarn(默认)set mapr原创 2021-11-07 20:44:12 · 2283 阅读 · 0 评论 -
Impala sql实现同比计算(lag函数)
一、同比与上年度同月数据对比称"同比",与上月数据对比称"环比"同比的话,如果每个月都齐全,都有数据lag(num,12)就可以了,空值的话,使用lag()函数的第三个参数。 select t2.index_name,t2.new_index_code,t2.now_value,t2.update_time, lag (t2.now_value, 12, 0) over (ORDER BY t2.update_time) AS last_num原创 2021-08-06 14:49:43 · 5237 阅读 · 0 评论 -
Hive的安装与配置
大数据之Hive原创 2020-08-17 21:21:05 · 502 阅读 · 0 评论 -
Hive进行分区分桶
Hive分桶原创 2020-08-22 22:01:34 · 6592 阅读 · 0 评论 -
Hive最常用的函数大全
1、把固定日期转换成时间戳select unix_timestamp('2020-05-29','yyyy-MM-dd') --返回结果 1590681600select unix_timestamp('20200529','yyyyMMdd') --返回结果 1590681600select unix_timestamp('2020-05-29T13:12:23Z', "yyyy-MM-dd'T'HH:mm:ss'Z'") --返回结果 1590729143select unix_time原创 2021-08-10 10:58:27 · 3111 阅读 · 0 评论