
Spark里让我头疼的概念
概念
大胖头leo
这个作者很懒,什么都没留下…
展开
-
Spark读取文件
spark读取文件时关于schema的注意点.option(“inferSchema”,“true”) 模式推理会导致加载两倍的源数据 使用ByteType只能解析范围在[-128,127]内的整数, 对于大于127的整数解析为null,并且会造成同行所有的列都被解析为null;所以应该使用IntegerType解析RGB列。 由于谓词下推导致不会被解析的数据列,即使DataType指定有误,也不会造成同行的其他列为null,因为此列数据不会被解析。 ...原创 2020-07-26 23:19:45 · 338 阅读 · 0 评论 -
Spark 常用action,及操作汇总
DataSet 的函数详细API常见此链接Action 操作1、collect() ,返回值是一个数组,返回dataframe集合所有的行2、collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、count() 返回一个number类型的,返回dataframe集合的行数4、describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max),这个可以...原创 2020-06-29 00:08:22 · 2078 阅读 · 0 评论 -
Spark RDD, Spark DataFrame, Spark SQL api 的速度测试
groupby 测试在测试了了 筛选(select),join, groupby之后发现RDD:无论什么时候都是最快的Dataframe 和SQL的速度基本上一样原创 2019-09-15 20:21:45 · 868 阅读 · 0 评论 -
Spark 程序在Yarn上的内存问题,简单解释
当上传spark程序时,总会有出现以下这个错误Spark-submit报错 Container exited with a non-zero exit code 143还有比如 outOfmemory, memory exceed 等等,一个头两个大。。。。对于只是使用spark程序的人,我实在是没兴趣了解spark 内存管理(我也不干这个。。。)所以只有一个目的,如何...原创 2019-09-13 00:09:21 · 657 阅读 · 0 评论 -
Spark Streaming:RDD,Batch, Dstream, Partitiion到底是什么
https://spark.apache.org/docs/2.2.0/streaming-programming-guide.html其实spark doc写的挺好,我这就把他概括一下,写一些让我迷惑的问题点:RDD:RDD就算是spark里最基本的处理单位,算是spark定义的一种数据结构(是分布式的)-------她是Immutable的,一旦生成了,就不能改其实想想...原创 2019-09-19 03:03:08 · 1169 阅读 · 0 评论 -
Spark Streaming: 理解一下到底 foreachRDD,foreach 在干啥
首先Spark算是一个分布式系统(分布式,分布式),对于每一个RDD,可以把他看成里面储存的是一堆指针,这些指针指向每一个RDD里的partition储存的位置。Dstream.foreachRDD:首先他操作的是Dstream, Dstream是一个由RDD组成的流,foreachRDD是一个输出的操作,它可以操作RDD,比如把RDD的数据写入的数据库要是想要操作RDD里...原创 2019-09-21 04:09:49 · 1059 阅读 · 0 评论