- 博客(12)
- 收藏
- 关注
原创 01 【高级SQL技巧】之【断点重分组】&经典题目【数值累计重分组】
1.取lag值比较,相等的取0,不相等的取1(因为是变化了才断点充分组),得到flag。3.按断点重分组flag进行row_number()开窗聚合分组。2.按flag进行sum()聚合开窗得到断点充分组flag。
2024-12-25 11:15:55
341
原创 【hive优化】数据倾斜优化总结
简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,造成数据热点问题(数据倾斜的另一种说法),这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢(木桶效应)。map阶段数据倾斜现象:少数map任务比其他map任务结束的比较晚reduce阶段数据倾斜现象少数reduce任务比其他reduce任务结束的比较晚。
2024-11-29 15:26:16
1414
原创 【Hadoop生态圈】Hadoop 概述
Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
2024-11-26 15:52:01
1229
原创 【Flinkcdc问题解决】java.lang.NoClassDefFoundError: org/apache/flink/shaded/guava18/com/google/common/util
添加flink-sql-connector-mysql-cdc依赖程序正常运行具体原因咱也搞不明白,这个版本问题困扰了咱好长时间,网上查过各个版本的解决方法,都无效,特此记录。也尝试过 flinkcdc 2.4.2 版本以及更高的flinkcdc版本,都会报另一个错误。
2024-11-21 18:19:46
547
3
原创 【hive优化】参数类优化总结
默认值是false,当有数据倾斜的时候进行负载均衡,生成的查询计划有两个MapReduce任务,第一个MR Job中,Map的输出结果会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中(这个过程可以保证相同的Group By Key被分布到同一个Reduce中),最后完成最终的聚合操作。
2024-11-21 14:48:46
996
原创 01 【高级SQL技巧】之【断点重分组】&经典题目【用户连续访问重分组】
使用【sum】开窗函数对【断点重分组flag】进行累计相加,每当遇到【flag =1】的时候就会重新分一组,达成断点重分组。请对上面的数据进行分组,某个用户连续的访问记录如果时间间隔小于60秒,则分为同一个组,并统计每个用户各分组的总停留时长。采用【lag】开窗函数取得每个用户【上次访问时间戳】;ps:以【用户id】分组,以【访问时间戳】排序。如果【用户停留时间】大于等于60s,则为1,否则为0,获得【断点重分组flag】以 【当前访问时间戳】 - 【上次访问时间戳】得到每个用户【用户停留时间】
2024-11-21 12:16:51
423
原创 【hive优化】hive的CBO优化提前过滤导致脚本报错案例
奇怪,数据不是被过滤掉了么,如下图,怎么还会传入最后的UDF函数报错。脚本执行,报错后查看Yarn执行日志,发现报错如。,大致原因是:自定义的UDF函数传入了错误的参数。被提前过滤,原因找到,应该是cbo自动优化导致。的条件过滤改在了在reduce阶段执行。在查找错误数据后发现错误数据的。
2024-11-20 15:21:09
300
原创 Redis安装
1.将 daemonize no 改为 daemonize yes ,让服务在后台启动。问题1: Jemalloc/jemalloc.h:没有那个文件。注意:Centos6版本以上只能使用gcc8以上版本进行编译。3.protected-mode默认为yes,修改为no。protected-mode默认为yes,修改为no。2.注释掉bind 127.0.0.1。注释掉bind 127.0.0.1。2)修改redis.conf。1)禁用Linux防火墙。
2024-11-13 19:13:24
728
原创 【Yum报错】Could not resolve host: mirrorlist.centos.org; Name or service not known
解决这个问题最简单的办法是重新安装Yum源,一次到位,避免无效尝试。
2024-11-13 16:08:50
589
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人