- 博客(10)
- 资源 (5)
- 收藏
- 关注
原创 Spark小笔记-shuffle小解
1、shuffle 原理shuffle很昂贵序列化 cpu 跨节点 网络IO 磁盘读写 文件IOshuffle 操作repartition *ByKey() join & cogroup2、shuffle介绍Hash Shuffle V1缺点:一个MapTask对应 R 个bucket,会产生巨量文件(M * R) reduce端使用hashtable存放ShuffleRead的数据,容易OOMHash Shuffle V2缺点:..
2022-05-02 13:31:46
1336
原创 Spark-Yarn任务提交流程解析
一、SparkSubmitbin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \./examples/jars/spark-examples_2.12-3.0.0.jar \10bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--d
2022-04-28 17:26:17
2543
原创 Spark小笔记-RDD一些重要的事
1、RDD的核心属性分区列表RDD数据结构中存在分区列表,用于执行任务时并行计算,是实现分布式计算的重要属性。分区计算函数Spark在计算时,是使用分区函数对每一个分区进行计算RDD之间的依赖关系RDD是计算模型的封装,当需求中需要将多个计算模型进行组合时,就需要将多个RDD建立依赖关系分区器(可选)当数据为KV类型数据时,可以通过设定分区器自定义数据的分区首选位置(可选)计算数据时,可以根据计算节点的状态选择不同的节点位置进行计算2、RDD序列...
2022-04-23 17:42:20
1803
原创 Spark小笔记-切片逻辑
1、内存数据的切片逻辑val conf = new SparkConf().setMaster("local[*]").setAppName("RDD")conf.set("spark.default.parallelism", "4")val sc = new SparkContext(conf)val rdd1 : RDD[Int] = sc.makeRDD(Seq(1,2,3,4,5), 3)rdd1.saveAsTextFile("output")sc.stop()源码跟进
2022-04-20 18:38:28
2190
1
原创 leetcode 180. 连续出现的数字 [中等]
编写一个 SQL 查询,查找所有至少连续出现三次的数字。+----+-----+| Id | Num |+----+-----+| 1 | 1 || 2 | 1 || 3 | 1 || 4 | 2 || 5 | 1 || 6 | 2 || 7 | 2 |+----+-----+例如,给定上面的 Logs 表, 1 是唯一连续出现至少三次的数字。+-----------------+| ConsecutiveNums |+---
2022-04-15 11:24:08
307
原创 leetcode 178. 分数排名 [中等]
编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。+----+-------+| Id | Score |+----+-------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 || 5 | 4.00 || 6 | 3.65 |+----+-------+例如,根据上述给定的 S
2022-04-15 11:16:49
91
原创 sql 开窗函数小结
1、相关函数说明over() -- 指定窗口 窗口大小变化(partition by & order by )current row -- 当前行n preceding -- 往前1行n following -- 往后1行unbounded -- 起点unbounded preceding -- 前面起点unbounded followding -- 后面起点lag(col,n,default) -- 往前n行数据lead(col,n,default) -- 往
2022-04-15 11:11:43
859
原创 leetcode 177. 第N高的薪水 [中等]
编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表,n = 2 时,应返回第二高的薪水 200。如果不存在第 n 高的薪水,那么查询应返回 null。+------------------------+|
2022-04-15 10:39:51
78
原创 leetcode 176. 第二高的薪水 [简单]
SQL架构编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null。+---------------------+
2022-04-14 17:32:38
154
原创 leetcode 175. 组合两个表 [简单]
难度简单SQL架构表1: Person+-------------+---------+| 列名 | 类型 |+-------------+---------+| PersonId | int || FirstName | varchar || LastName | varchar |+-------------+---------+PersonId 是上表主键表2: Address+-------------+-----
2022-04-14 17:27:44
329
基于OPENGL开发的捉蝴蝶小游戏
2013-04-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人