
Hive
fragrans
LLM、大数据、产品、运营
展开
-
数据倾斜常见的解决办法
hive数据倾斜常见处理办法原创 2024-05-07 22:38:26 · 464 阅读 · 0 评论 -
Hive中小文件过多的几种处理方式
hive小文件处理方式原创 2024-05-07 22:25:11 · 426 阅读 · 0 评论 -
hive自定义udtf函数
2、在initialize中做初始化工作,例如定义输出的数据格式。udtf,一个输入,对应多个输出,实现流程如下。3、在process中实现具体的逻辑。1、继承genericUDF。原创 2024-05-07 16:37:03 · 271 阅读 · 0 评论 -
hive自定义udf开发流程
hive自定义函数开发流程原创 2024-05-07 15:43:41 · 326 阅读 · 0 评论 -
hive 解析json字符串及json数组
解析json字符串、json数组请参考这里get_json_object、json_tuple一文学会Hive解析Json数组(好文收藏)转载 2022-03-20 17:40:58 · 1464 阅读 · 0 评论 -
用户xx日留存率计算
1. 计算留存1.1 首选圈定一批用户假设以开始日期-结束日期的新注册用户作为新用户,首先找出新用户:select user, login_date from where login_date betweed xxx and yyy。select user_id, str_to_date(login_time,'%Y/%m/%d') login_timefrom user_infogroup by 1,2; -- 为了去重,只取用户某个日期的一条数据,以user_原创 2022-02-26 22:48:06 · 428 阅读 · 0 评论 -
hive数据同步至es步骤
1、建立hive表CREATE TABLE `wb_tmp`( `surface` string,`radiation` string,`loader_id` string) ROW FORMAT DELIMITED ...转载 2022-02-07 14:41:01 · 3051 阅读 · 0 评论 -
count(*)、count(1)、count(列)的区别
参考资料count(列),是统计这一列出去null的格式,属于列级别的统计。count(1)和count(*)是统计表中有多少条数据,表级别的 统计。浅析count(1)、count(*)与count(列名)的执行区别 - 古兰精 - 博客园转载 2022-01-29 06:12:51 · 278 阅读 · 0 评论 -
Hive数据倾斜
1. 什么是数据倾斜数据倾斜,即单个节点任务所处理的数据量远大于同类型任务所处理的数据量,导致该节点成为整个作业的瓶颈,这是分布式系统不可能避免的问题。2. 造成数据倾斜的原因从本质来说,导致数据倾斜有两种原因:一是任务读取大文件,二是任 务需要处理大量相同键的数据。任务需要处理大量相同键的数据,这种情况有以下4种表现形式:(1)数据含有大量无意义的数据,例如空值(NULL)、空字符串等。 (2)含有倾斜数据在进行聚合计算时无法聚合中间结果,大量数据都需要经过Shuffle阶.原创 2022-01-27 07:37:05 · 1643 阅读 · 0 评论 -
Hive中大量小文件的处理方法总结
1. distributed by2. 使用hdfs中归档功能对于HDFS中有大量小文件的表,可以通过Hadoop归档(Hadoop archive)的方式将文件归并成几个较大的文件。归并后的分区会先创建一个 data.har目录,里面包含两部分内容:索引(_index和_masterindex)和数据 (part-*)。其中,索引记录归并前的文件在归并后的所在位置。Hive数据归档后并不会对数据进行压缩。下面是启用数据归档的例子,代码如下:--启用数据归档 set原创 2022-01-21 08:35:34 · 854 阅读 · 0 评论 -
Hive存储格式对比
1. parquet和orc的区别同ORC的元数据一样,Parquet 的这些元数据信息能够帮助提升程序的运行速度,但是ORC在读取数据时 又做了一定的优化,增强了数据的读取效率。对比图9.5和图9.6可以知道,使用ORC作为存储,可以有效地借助元数 据快速筛选掉不需要的数据,在查询时所消耗的集群资源比Parquet类型 少。 ...原创 2022-01-21 08:29:24 · 570 阅读 · 0 评论 -
SQL数据分析常用案例总结
Hive计算最大连续登陆天数3个常考的SQL数据分析题(干货建议收藏)原创 2022-01-06 18:31:05 · 2342 阅读 · 0 评论 -
面试常见的sql语句
1. 有筛选条件的统计数量问题的万能模板select sum(case when <判断表达式> then 1 else 0end) as 数量from 信息表;select sum( case when 平均成绩>80 then 1 else 0 end) as 人数,sum( case when 平均成绩>80 then 1 else 0 end)/count(学号) as 人数占比from (转载 2021-07-09 06:42:22 · 700 阅读 · 1 评论 -
hivesql中的concat函数,concat_ws函数,concat_group函数之间的区别
https://www.cnblogs.com/wqbin/p/10266783.htmlhttps://blog.youkuaiyun.com/m0_49834705/article/details/111660495https://blog.youkuaiyun.com/qq_43665254/article/details/112552005转载 2021-04-18 11:11:52 · 249 阅读 · 0 评论 -
hive中分区取TOPN
目录0. 概述1. 准备数据和表结构2. 几种不同分组取TOPN情况说明2.1 分组-组内排序2.2 分区-组内排序-取topN2.3 不分组-只对某个字段排序2.4 rank() over() 的使用2.5 dense_rank()的使用3. 参考资料0. 概述hive中分组取topN,有3中类型的函数可以用:row_number() over (partition by col01 order by col02 desc ) rank() over (p原创 2021-04-07 19:41:52 · 1686 阅读 · 0 评论 -
Hive常用sql语句总结
目录1. 创建hive表示指定location参数2. DISTRIBUTE BY的使用1. 创建hive表示指定location参数例如下面创建外表的语句,指定了表数据文件保存的hdfs目录,同时指定了hive数据文件的类型create external table if not exists tableName (column01 date,column02 int,column03 string)stored as sequencefileloca..原创 2020-11-09 18:33:59 · 1514 阅读 · 0 评论 -
hive -e 和 -f 通过beeline执行文件中的hive sql语句
1. 在服务器命令行中直接执行sql语句或者sql文件中的内容有时需要在命令行中直接执行hive sql语句,希望不进入hive模式执行,这时候就可以使用hive -e 或者 hive -f 来实现1. hive -e 和 hive -f2. beeline -f ,beeline使用beeline -u "jdbc:hive2://localhost:10000" -n yourname -p passwore -f hivescript.sqlbeeline使用方式请..原创 2020-11-03 18:25:32 · 11489 阅读 · 0 评论 -
beeline访问hive
1. 在集群节点的服务器命令行依次输入下面命令beeline进入客户端后,开始连接到hiveserver2,例如下面的命令,使用user/passwd访问hive的dnname库,其中ip是hiveserver2的ip!connect jdbc:hive2://ip:10000/dbnameuser passwd...原创 2020-11-03 13:24:00 · 212 阅读 · 0 评论