Spark编程模型(中)

创建RDD

方式一:从集合创建RDD

  • makeRDD
  • Parallelize

注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。

方式二:读取外部存储创建RDD
  Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。

  1. 多文件格式支持:
    在这里插入图片描述

  2. 多文件系统支持:
       1)本地文件系统
       2)S3
       3)HDFS

  3. 数据库
       1)JdbcRDD
       2)spark-cassandra-connector(datastax/spark-cassandra-connector)
     3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)
       4)Elasticsearch-Hadoop

控制操作

  1. persist操作,可以将RDD持久化到不同层次的存储介质,以便后续操作重复使用。
       1)cache:RDD[T]
       2)persist:RDD[T]
       3)Persist(level:StorageLevel):RDD[T]

  2. checkpoint
     将RDD持久化到HDFS中,与persist操作不同的是checkpoint会切断此RDD之前的依赖关系,而persist依然保留RDD的依赖关系。
     注意:控制操作的细节会在后续章节专门讲解

转换操作

基本转换操作1
  (1)RDD的转化操作是返回新的RDD的操作;
  (2)我们不应该把RDD看作存放着特定数据的数据集,而最好把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。
在这里插入图片描述

基本转换操作2
在这里插入图片描述

action操作

在这里插入图片描述

以上就是博主为大家介绍的这一板块的主要内容,这都是博主自己的学习过程,希望能给大家带来一定的指导作用,有用的还望大家点个支持,如果对你没用也望包涵,有错误烦请指出。如有期待可关注博主以第一时间获取更新哦,谢谢!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值