LivinQ-优快云博客

原创 Spark小笔记-shuffle小解

1、shuffle 原理shuffle很昂贵序列化 cpu 跨节点网络IO 磁盘读写文件IOshuffle 操作repartition *ByKey() join & cogroup2、shuffle介绍Hash Shuffle V1缺点：一个MapTask对应 R 个bucket，会产生巨量文件(M * R) reduce端使用hashtable存放ShuffleRead的数据，容易OOMHash Shuffle V2缺点：..

2022-05-02 13:31:46 1386

原创 Spark-Yarn任务提交流程解析

一、SparkSubmitbin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \./examples/jars/spark-examples_2.12-3.0.0.jar \10bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--d

2022-04-28 17:26:17 2594

原创 Spark小笔记-RDD一些重要的事

1、RDD的核心属性分区列表RDD数据结构中存在分区列表，用于执行任务时并行计算，是实现分布式计算的重要属性。分区计算函数Spark在计算时，是使用分区函数对每一个分区进行计算RDD之间的依赖关系RDD是计算模型的封装，当需求中需要将多个计算模型进行组合时，就需要将多个RDD建立依赖关系分区器（可选）当数据为KV类型数据时，可以通过设定分区器自定义数据的分区首选位置（可选）计算数据时，可以根据计算节点的状态选择不同的节点位置进行计算2、RDD序列...

2022-04-23 17:42:20 1840

原创 Spark小笔记-切片逻辑

1、内存数据的切片逻辑val conf = new SparkConf().setMaster("local[*]").setAppName("RDD")conf.set("spark.default.parallelism", "4")val sc = new SparkContext(conf)val rdd1 : RDD[Int] = sc.makeRDD(Seq(1,2,3,4,5), 3)rdd1.saveAsTextFile("output")sc.stop()源码跟进

2022-04-20 18:38:28 2273 1

原创 leetcode 180. 连续出现的数字 [中等]

编写一个 SQL 查询，查找所有至少连续出现三次的数字。+----+-----+| Id | Num |+----+-----+| 1 | 1 || 2 | 1 || 3 | 1 || 4 | 2 || 5 | 1 || 6 | 2 || 7 | 2 |+----+-----+例如，给定上面的 Logs 表， 1 是唯一连续出现至少三次的数字。+-----------------+| ConsecutiveNums |+---

2022-04-15 11:24:08 335

原创 leetcode 178. 分数排名 [中等]

编写一个 SQL 查询来实现分数排名。如果两个分数相同，则两个分数排名（Rank）相同。请注意，平分后的下一个名次应该是下一个连续的整数值。换句话说，名次之间不应该有“间隔”。+----+-------+| Id | Score |+----+-------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 || 5 | 4.00 || 6 | 3.65 |+----+-------+例如，根据上述给定的 S

2022-04-15 11:16:49 115

原创 sql 开窗函数小结

1、相关函数说明over() -- 指定窗口窗口大小变化(partition by & order by )current row -- 当前行n preceding -- 往前1行n following -- 往后1行unbounded -- 起点unbounded preceding -- 前面起点unbounded followding -- 后面起点lag(col,n,default) -- 往前n行数据lead(col,n,default) -- 往

2022-04-15 11:11:43 907

原创 leetcode 177. 第N高的薪水 [中等]

编写一个 SQL 查询，获取 Employee 表中第 n 高的薪水（Salary）。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表，n = 2 时，应返回第二高的薪水 200。如果不存在第 n 高的薪水，那么查询应返回 null。+------------------------+|

2022-04-15 10:39:51 99

原创 leetcode 176. 第二高的薪水 [简单]

SQL架构编写一个 SQL 查询，获取 Employee 表中第二高的薪水（Salary）。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表，SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水，那么查询应返回 null。+---------------------+

2022-04-14 17:32:38 185

原创 leetcode 175. 组合两个表 [简单]

难度简单SQL架构表1: Person+-------------+---------+| 列名 | 类型 |+-------------+---------+| PersonId | int || FirstName | varchar || LastName | varchar |+-------------+---------+PersonId 是上表主键表2: Address+-------------+-----

2022-04-14 17:27:44 347