幡然醒悟的研二狗-致敬所有受压迫的博士-优快云博客

原创学习补充路径

acwing刷题 C++cyc各种面试知识点，针对java、刷题也是java知乎刷题经验，主刷前400，内含整理部分上述视频讲解，java需购买2800，太特么贵了，不买，可参考主刷哪些题...

2019-10-27 15:47:07 1207

原创 presto实操array, hive不支持此类操作

presto array：reduce操作：依次作用于元素，最终生成一个值transform操作，每个元素作操作，最终依旧是array需求：实现数组的相邻元素做差，特殊的，首个元素做差之后为0presto可以实现复杂的数组操作，但hive并不支持此类操作。****参考链接：Presto–数组函数和运算符presto 中的数组函数用法...

2022-05-06 17:26:03 2166

原创 auc计算

参考链接单个用户的样本全是正样本或者全是负样本，auc就算不出来了，所以算gauc的时候要过滤这两类的case

2022-01-05 14:17:46 1821

需求：用presto跑sql的时候，发现group by去重之后直接count不是总条数，而是按照group by key的key分组之后的条数，万万没想到啊。因为语句执行顺序是group by 再count，所以按理说不应该，但是实际上这是一个需要注意的坑，最好在外面包一层。曾一度怀疑是presto和hive语法的差异，但实际上sql就有这么一个坑。下面用三个sql例子说明例子1：例子2：因为涉及到group by执行顺序在select 之前，所以没成想它会按照key分组计数，看来g

2021-03-31 20:02:52 2004

原创常用hive语句

hive中对多行进行合并—collect_set&collect_list函数

2021-03-17 14:58:17 111

原创 shape(n,)和shape(1,n)

最后一张图，shape=(1,4) shape=4也会报错综上，fc.numeric_column中对应的shape=(4,)应该是4列的二维数组就可以，像[[1,2,3,4]]和[[2,3,4,5],[1,2,3,4]]，不能是一维数组[1,2,3,4]

2021-03-05 14:21:54 595

原创深度学习分布式小记

小菜鸡刚接触，慢慢来深度学习分布式训练实战一深度学习分布式训练实战二

2021-01-19 16:01:53 663

原创 flink之slot、并行度、任务链

写在前面：不仅要做知识的搬运工，还要做知识的再加工，让印象更加深刻。参考链接：详情链接下面对参考链接的某一部分做更详细的说明，方便以后查看。图示6处的说明：1.slot中文意思"插槽"slot表示taskmanager可管理内存的一个固定大小的子集（默认均分）。比如taskmanager的管理内存是3GB，假如有两个slot，那么每个slot就仅仅有1.5GB内存可用。默认情况下，flink允许子任务共享slot，即使他们是不同任务的子任务（前提是他们来自同一个job），这样，一个slo

2021-01-11 16:41:09 1744 1

原创 hive窗口函数

参考链接

2021-01-09 00:08:09 1219

原创 hive开窗函数中range和rows的区别

rows是物理窗口，是哪一行就是哪一行，与当前行的值（order by key的key的值）无关，只与排序后的行号相关range是逻辑窗口，与当前行的值有关（order by key的key的值）select id,sum(id) over(order by id) default_sum,sum(id) over(order by id range between unbounded preceding and current row) range_sum,sum(id) over(orde.

2021-01-08 19:54:29 6448 5

原创 hive企业级调优概述

文章目录1.Fetch抓取2.本地模式3.表的优化4.数据倾斜5.并行执行6.严格模式7.JVM的重用（慎用）8.推测执行（慎用）9.压缩10.执行计划1.Fetch抓取2.本地模式3.表的优化1.小表、大表Join（新版的hive已经做了优化，两者的先后顺序已经没有明显区别）2.大表Join大表空KEY过滤空KEY转换3.MapJoin4.Group By默认情况下，Map阶段的同一Key数据会分发给一个reduce，当一个key数据过大时就倾斜了，并不是所有的聚合操作都需

2021-01-08 19:06:59 1092

原创 spark.sql.shuffle.partitions和spark.default.parallelism的深入理解

stack overflow链接总结：1.spark.default.parallelism只对RDD有效，对sparksql（DataFrame、DataSet）无效2.spark.sql.shuffle.partitions对sparksql中的joins和aggregations有效，但其他的无效（对这种情况下，上述的两种配置都无效，我们应该怎么办呢？看第三点）3.我们可以使用repartition算子对dataframe进行重分区。...

2021-01-07 15:33:16 4311

原创 RDD的复用和RDD的持久化的区别

2021-01-06 21:45:54 1243

原创 spark 优化之详尽概述

文章目录前言一、spark性能调优1.常规性能调优2.算子调优3.Shuffle调优4.JVM调优二、spark数据倾斜1.数据倾斜的表现：2.定位数据倾斜：3.解决数据倾斜方案：三、spark故障排除前言spark性能调优spark数据倾斜spark故障排除一、spark性能调优1.常规性能调优最优资源配置RDD优化RDD复用RDD持久化RDD尽可能早的filter操作并行度调节广播变量Kryo序列化调节本地化等待时长2.算子调优mapPartitio

2021-01-06 18:51:55 1380

原创一文详解spark与mr的不同，让你清楚的明白为什么spark比mr“快”

问题1描述：Spark计算比MapReduce快的根本原因在于DAG计算模型。一般而言，DAG相比Hadoop的MapReduce在大多数情况下可以减少shuffle次数（怎么体现？）解答：Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与其他节点进行数据交换，Spark可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘IO的操作。但是，如果计算过程中涉及数据交换，Spark也是会把shuffle的数据写磁盘的！！！另外有同学提到，Spar

2021-01-05 18:31:36 3512

原创 sparkStreaming之transform的细节

val socketLineDStream: ReceiverInputDStream[String] = streamingContext.socketTextStream('linux1', 8888)// TODO Driver中执行一次// 例如val a = 1 在Driver中只执行一次// 首先看一下DStream的其他Transformations（转换）操作socketLineDStream.map({ case x => { // TODO Exec

2020-12-30 18:28:58 4064 10

原创 hive视图和with

有些博客中说with会读入内存，看博客的评论是这么说的，感觉有道理with和union联合使用数据量过大还是重新建个表比较好

2020-12-24 17:23:27 1314 2

原创 spark之sortBy分区数

spark的sortBy既是转换算子又是行动算子。scala> sc.makeRDD(1 to 5, 2).sortBy(x=>x, false, 4)res11: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[13] at sortBy at <console>:25对应的UI界面是可以看到出现了一个job，而行动算子才会产生job。点进job去之后，看到下幅图。从图中可以看出，sortBy排序后产生的RDD的分区数

2020-12-21 17:51:48 2024

原创 spark累加器

累加器：分布式只写共享变量累加器是用来把Executor端变量信息聚合到Driver端。在Driver程序种定义的变量，在Executor端的每一个task都会得到这个变量的一份新的副本，每个task更新这些副本后，传回Driver端进行merge首先看一个不用累加器的案例scala> val dataRDD = sc.makeRDD(1 to 4, 2)dataRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] a

2020-12-18 17:33:32 1143 1

原创 spark每个stage的任务数

一个SparkContext对应一个Application一个Application中会有多个action算子，也就是对应多个job一个job中会有多个宽依赖，就会产生宽依赖个数+1的stage数一个stage中会有多个分区，也就会有多个任务这里需要注意一点的是：同一个stage阶段也会出现分区数变少的情况，这种情况下如何判断分区数？答案是：看每个stage中最后一个RDD的分区个数就是当前stage的task数。scala> sc.makeRDD(1 to 5, 3).glom.coll

2020-12-14 14:45:49 1656

原创 spark数据结构

spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景，分别是：RDD：弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量...

2020-12-11 14:35:12 1108

原创 spark的groupBy是宽依赖

sc.makeRDD(1 to 8, 3).glom().collect()// 下面是第一行scala语句的结果// res21: Array[Array[Int]] = Array(Array(1, 2), Array(3, 4, 5), Array(6, 7, 8))sc.makeRDD(1 to 8, 3).groupBy(_%2).glom().collect()// 下面是第二行scala语句的结果// res23: Array[Array[(Int, Iterable[Int])]]

2020-12-10 18:24:22 1556

空空如也

空空如也