自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 01 【高级SQL技巧】之【断点重分组】&经典题目【数值累计重分组】

1.取lag值比较,相等的取0,不相等的取1(因为是变化了才断点充分组),得到flag。3.按断点重分组flag进行row_number()开窗聚合分组。2.按flag进行sum()聚合开窗得到断点充分组flag。

2024-12-25 11:15:55 341

原创 02 【高级SQL技巧】之【互为好友】&经典题目【买家 & 卖家】

已知买家和卖家的交易关系,简要表结构如下。求两个买家之间共同卖家的数量。

2024-12-24 17:25:46 199

原创 02 【高级SQL技巧】之【互为好友】&经典题目【互为好友】

1009|1005–请计算有多少对互为好友的朋友。

2024-12-24 16:27:27 266

原创 【hive优化】数据倾斜优化总结

简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,造成数据热点问题(数据倾斜的另一种说法),这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢(木桶效应)。map阶段数据倾斜现象:少数map任务比其他map任务结束的比较晚reduce阶段数据倾斜现象少数reduce任务比其他reduce任务结束的比较晚。

2024-11-29 15:26:16 1414

原创 【Hadoop生态圈】Hadoop 概述

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

2024-11-26 15:52:01 1229

原创 【Flinkcdc问题解决】java.lang.NoClassDefFoundError: org/apache/flink/shaded/guava18/com/google/common/util

添加flink-sql-connector-mysql-cdc依赖程序正常运行具体原因咱也搞不明白,这个版本问题困扰了咱好长时间,网上查过各个版本的解决方法,都无效,特此记录。也尝试过 flinkcdc 2.4.2 版本以及更高的flinkcdc版本,都会报另一个错误。

2024-11-21 18:19:46 547 3

原创 【hive优化】参数类优化总结

默认值是false,当有数据倾斜的时候进行负载均衡,生成的查询计划有两个MapReduce任务,第一个MR Job中,Map的输出结果会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中(这个过程可以保证相同的Group By Key被分布到同一个Reduce中),最后完成最终的聚合操作。

2024-11-21 14:48:46 996

原创 01 【高级SQL技巧】之【断点重分组】&经典题目【用户连续访问重分组】

使用【sum】开窗函数对【断点重分组flag】进行累计相加,每当遇到【flag =1】的时候就会重新分一组,达成断点重分组。请对上面的数据进行分组,某个用户连续的访问记录如果时间间隔小于60秒,则分为同一个组,并统计每个用户各分组的总停留时长。采用【lag】开窗函数取得每个用户【上次访问时间戳】;ps:以【用户id】分组,以【访问时间戳】排序。如果【用户停留时间】大于等于60s,则为1,否则为0,获得【断点重分组flag】以 【当前访问时间戳】 - 【上次访问时间戳】得到每个用户【用户停留时间】

2024-11-21 12:16:51 423

原创 【hive优化】hive的CBO优化提前过滤导致脚本报错案例

奇怪,数据不是被过滤掉了么,如下图,怎么还会传入最后的UDF函数报错。脚本执行,报错后查看Yarn执行日志,发现报错如。,大致原因是:自定义的UDF函数传入了错误的参数。被提前过滤,原因找到,应该是cbo自动优化导致。的条件过滤改在了在reduce阶段执行。在查找错误数据后发现错误数据的。

2024-11-20 15:21:09 300

原创 Redis安装

1.将 daemonize no 改为 daemonize yes ,让服务在后台启动。问题1: Jemalloc/jemalloc.h:没有那个文件。注意:Centos6版本以上只能使用gcc8以上版本进行编译。3.protected-mode默认为yes,修改为no。protected-mode默认为yes,修改为no。2.注释掉bind 127.0.0.1。注释掉bind 127.0.0.1。2)修改redis.conf。1)禁用Linux防火墙。

2024-11-13 19:13:24 728

原创 【Yum报错】Could not resolve host: mirrorlist.centos.org; Name or service not known

解决这个问题最简单的办法是重新安装Yum源,一次到位,避免无效尝试。

2024-11-13 16:08:50 589

原创 Centos7的Yum源搭建

【代码】Centos7的Yum源搭建。

2024-11-13 14:33:28 461

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除