spark
文章平均质量分 71
BinaryJack
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark学习代码笔记和问题解决03:spark streaming
Spark Streaming重点知识//************* Spark Streaming是什么1、SPark Streaming是Spark中一个组件,基于Spark Core进行构建,用于对流式进行处理,类似于Storm。2、Spark Streaming能够和Spark Core、Spark SQL来进行混合编程。3、Spark Streaming我们主要关注: 1、Spark Streaming 能接受什么数据? kafka、flume、HDFS、...原创 2021-04-16 22:01:46 · 256 阅读 · 0 评论 -
spark学习代码笔记和问题解决02:spark sql
val df = spark.read.json("./examples/src/main/resources/people.json")(报错:Path does not exist: file:/home/hadoop/app/spark-2.1.1-bin-hadoop2.7/bin/examples/src/main/resources/people.json;)val df = spark.read.json("../examples/src/main/resources/peopl.原创 2021-04-08 22:46:12 · 316 阅读 · 0 评论 -
spark学习代码笔记和问题解决01:spark core
代码RDD创建1、sc.parallelize(seq) 把seq这个数据并行化分片到节点val a = sc.parallelize(List("a","b","c"))2、sc.makeRDD(seq) 把seq这个数据并行化分片到节点,他的实现就是parallelizeval aaa = sc.makeRDD(List("d","e","f"))3、sc.makeRDD(seq[(T,seq)] 这种方式可以指定RDD的存放位置val aa = sc.make...原创 2021-04-01 00:06:59 · 583 阅读 · 0 评论 -
spark03:RDD高级特性
RDD依赖关系(宽依赖,窄依赖,血统关系,DAG有向无环图)RDD持久化RDD检查点机制键值对RDD数据分区RDD累加器和广播变量原创 2021-03-22 19:14:16 · 124 阅读 · 0 评论 -
spark课程02:RDD概念,RDD转换,应用提交
spark corespark core中最重要的部分:RDD(弹性分布式数据集,是spark计算的基石,为用户隐蔽了底层对数据的复杂抽象和处理,为用户提供了一组方便的数据转换与求值方法)val prdd = sc.parallelize(1 to 10)prdd.collectval lrdd = sc.parallelize(List("a","b","c"))lrdd.collectval mrdd = sc.makeRDD(0 to 10)mrdd.c...原创 2021-03-20 18:01:03 · 342 阅读 · 0 评论
分享