
Spark
文章平均质量分 92
dddd_疾
这个作者很懒,什么都没留下…
展开
-
spark总结
宽依赖: 一个父(上游)RDD的Partition可以被子(下游)RDD的多个Partition使用(会产生Shuffle), 像多生子女;RDD的Lineage(血统)会记录RDD间的元数据信息和转换行为, 当该RDD的部分分区数据丢失时 可以根据这些信息来恢复数据并重新计算。分布式计算中, Driver要往Executor端发数据, 所以数据要支持序列化(算子内经常会用到算子外的数据, 闭包检测)算子以外的代码都是在Driver端执行, 算子里面的代码都是在Executor端执行。原创 2023-06-13 22:29:50 · 212 阅读 · 0 评论 -
Spark SQL数据源-基本操作
默认情况下,load()方法和save()方法只支持Parquet格式的文件,Parquet文件是以二进制方式存储数据的,因此不可以直接读取,文件中包括该文件的实际数据和Schema信息,也可以在配置文件中通过参数spark.sql.sources.default对默认文件格式进行更改。除了使用select()方法查询外,也可以使用SparkSession对象的sql()方法执行SQL语句进行查询,该方法的返回结果仍然是一个DataFrame。原创 2023-05-31 17:30:50 · 1090 阅读 · 0 评论 -
Spark Sql概述 数据集 数据帧
**执行 :val ds =spark.read.textFile(“hdfs://master:9000/student2/input/student.txt”)–**定义一个样例类Student,用于存放数据描述信息(Schema)–这样的单列数据集太粗糙,应该加点元数据信息,让它更精细。原创 2023-05-24 18:10:38 · 795 阅读 · 0 评论 -
Spark大数据SparkRDD案例
1.利用RDD计算总分和平均分。2.利用RDD统计每日新增用户。3.利用RDD实现分组排行榜。原创 2023-05-10 12:03:11 · 1402 阅读 · 0 评论 -
Spark大数据RDD容错机制
累加器,检查点机制、检查点和持久化的区别原创 2023-05-10 11:06:40 · 604 阅读 · 0 评论