
spark
文章平均质量分 58
Ashley_JIANG
这个作者很懒,什么都没留下…
展开
-
spark调优
set spark.sql.caseSensitive=FALSE; 设置不区分大小写转载 2021-10-10 17:22:16 · 237 阅读 · 0 评论 -
spark报错整理
1. 报错:Diagnostic messages truncated.一个spark2的已知bug,当一个表被多次复用,形成菱形逻辑(比如select ... as a; select ... from a as t1; select ... from a as t2; select t1 join t2)就有一定概率会出现这个attribute missing的报错。1. spark3修复了该问题。2. 如果目前要在spark2任务中绕过该问题,可以尝试找出那些任务中被多次复用的临时..原创 2021-07-28 23:12:52 · 2996 阅读 · 0 评论 -
面试题汇总
spark reduceByKey和groupByKey的区别 reduceByKey可以自定义函数,groupByKey不可以自定义函数 reduceByKey可以在shuffle之前将输出数据与一个共用的key结合,先在本地进行merge操作,减少了很多不必要的数据进行数据传输造成的IO reduceByKey更适合大数据上的操作2. spark和hadoop的区别3. hive中的mapjoin原理hive中join的方式有两种MapJoin和ReduceJoin.原创 2021-03-28 20:17:15 · 178 阅读 · 0 评论 -
spark SQL知识点整合
1. dataframe和rdd的区别可以将dataframe理解成是RDD+schema元信息两个分别的优点和缺点:2. dataset的优点3.dataframe,dataset,和RDD的区别4. 之间的相互转化:5.堆外内存和堆内内存的定义和区别,各自的优势堆外操作系统的IO, 堆内内存建立再JVM上(会长生GC)6,spark on hive和hive on spark的区别7. hive和spark的整合8.thrith server ?????原创 2021-03-28 20:15:16 · 152 阅读 · 0 评论 -
spark dataframe坑点总结
1. joinxxxxx1 202009 x1 a1 null 5 null xxxxx2 202009 x2 a2 null null null xxxxx3 202009 x3 a3 null null 5 三条数据分别三个Dataframe中,join之后,发现数据并没有合并成一条,是以三条的形式显示的。将空值进行填充,问题解决。当是null的时候,会被认为不是相同的值。..原创 2020-11-19 21:10:17 · 310 阅读 · 0 评论 -
spark Dataframe数据处理常用方法总结
以下方法使用scala, df类型为Dataframe1. 新增一列df = df.withColumn("new col", lit(null)), //新的一列名字为"new col", 使用空值进行填充2. 列名重新命名df = df.withColumnRenamed("旧列名", "新列名")3. 根据条件进行判断来对Dataframe中某列的值进行填充df = df.withColumn("需要进行填充的列名", when(条件判断, $"用于填充的列名") ..原创 2020-06-23 17:50:23 · 1965 阅读 · 0 评论