
Hive
文章平均质量分 54
Souvenirser
劳逸结合!
展开
-
Spark Hive SQL parse_url获取HOST parse_url(referrer,‘HOST‘) 转为java代码
【代码】Spark Hive SQL parse_url获取HOST parse_url(referrer,'HOST') 转为java代码。原创 2023-12-12 19:24:28 · 612 阅读 · 0 评论 -
干货 | HIVE表常用操作大全(二)
hive动态分区插入,hive动态插入的分区数大于100,hive修改最小文件merge大小,hive修改reduce task数,hive并行执行,hiveMapJoin机制,hive修改队列,hive设置executor大小set mapreduce.job.queuename,hive设置set spark.yarn.executor.memoryOverhead原创 2023-02-03 14:41:35 · 159 阅读 · 0 评论 -
spark5种去重方式,快速去重
双重group by将去重分成了两步,是分组聚合运算,group by操作能进行多个reduce任务并行处理,每个reduce都能收到一部分数据然后进行分组内去重,不再像distinct只有一个reduce进行全局去重.sql中最简单的方式,当数据量小的时候性能还好.当数据量大的时候性能较差.因为distinct全局只有一个reduce任务来做去重操作,极容易发生数据倾斜的情况,整体运行效率较慢.DataFrame中,可以先将分区内数据进行排序,然后通过dropDuplicates将重复的数据删除.原创 2023-01-01 14:13:17 · 7861 阅读 · 0 评论 -
干货 | HIVE表常用操作大全(一)
HIVE操作外部表,HIVE修改外部表为内部表,删除hive表分区,HIVE修改内部表为外部表,HIVE设置内存大小,HIVE设置非严格模式,HIVE设置执行引擎,HIVE union all报错,将yyyy-MM-dd HH:mm:ss的timestamp转化为yyyyMMdd或者yyyyMMddHH,timestamp转换为yyyyMMdd/yyyy-MM-dd,impala更新数据,csv建表语句,计算分钟差,列转行,oalesce,nvl的坑,新增字段,增加分区,eeline重定向,设置队列名原创 2022-12-23 17:47:36 · 910 阅读 · 0 评论