Spark学习笔记整理 --- 2018-07-17 【RDD编程】

最新推荐文章于 2023-03-29 20:07:15 发布

杨鑫newlfe

最新推荐文章于 2023-03-29 20:07:15 发布

阅读量413

点赞数

CC 4.0 BY-SA版权

分类专栏： Scala 大数据挖掘与大数据应用案例文章标签： Spark RDD 实时计算持久化大数据

本文链接：https://blog.youkuaiyun.com/u012965373/article/details/81088097

大数据挖掘与大数据应用案例同时被 2 个专栏收录

536 篇文章 ¥9.90 ¥99.00

订阅专栏

Scala

108 篇文章

订阅专栏

本文详细介绍了Spark中RDD的创建、持久化、分区及打印元素等操作。通过实例展示了如何从本地和HDFS文件系统加载数据，以及如何通过parallelize方法创建RDD。RDD操作分为转换和行动，转换是惰性求值的，行动如count()、collect()等会触发计算。文章还讨论了持久化机制以减少重复计算，并解释了如何设置和调整分区数以优化性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RDD创建
RDD可以通过两种方式创建：
* 第一种：读取一个外部数据集。比如，从本地文件加载数据集，或者从HDFS文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。
Spark可以支持文本文件、SequenceFile文件（Hadoop提供的 SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件）和其他符合Hadoop InputFormat格式的文件。
* 第二种：调用SparkContext的parallelize方法，在Driver中一个已经存在的集合（数组）上创建。创建RDD之前的准备工作
Spark采用textFile()方法来从文件系统中加载数据创建RDD，该方法把文件的URI作为参数，这个URI可以是本地文件系统的地址，或者是分布式文件系统HDFS的地址，或者是Amazon S3的地址等等。
下面请切换回spark-shell窗口，看一下如何从本地文件系统中加载数据：

scala> val lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")
lines: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/mycode/rdd/word.txt MapPartitionsRDD[12] at textFile at <console>:27

从执行结果反馈信息可以看出，lines是一个String类型的RDD，或者我们以后可以简单称为RDD[String]，也就是说，这个RDD[

了解本专栏