Spark学习笔记

Spark学习(一) pyspark基本操作

引入pySpark工作模块

  1. 初始化SparkContext,SparkContext初始化完毕,才能向spark集群提交任务,其中,SparkConf负责SparkContext的配置参数,RDD为SparkContext重要的数据载体。
from pyspark import SparkContext
from pyspark import SparkConf
conf=SparkConf().setAppName("firstSparkTest").setMaster("local[*]")
sc = SparkContext.getOrCreate(conf)

初始化RDD

RDD是主要的API,我们通过sparkcontext来创建和操作RDD,通常有以下几种方式,以本地为例:

  1. 序列数据(比如python中的list): 通过sc.parallelize去初始化一个RDD;
rdd = sc.parallelize([1,2,3,4,5])
rdd
  1. 通过把文本读入进RDD来创建RDD: 通过sc.textFile去初始化一个RDD;
#D:\spark\spark-2.2.0-bin-hadoop2.7\README.MD为文件的存储路径
rdd=sc.textFile("'file:\\\\\\D:\spark\spark-2.2.0-bin-hadoop2.7\README.MD")
rdd
Out[7]:file:\\\D:\spark\spark-2.2.0-bin-hadoop2.7\README.MD MapPartitionsRDD[3] at textFile at NativeMethodAccessorImpl.java:0
#读取rdd中的第一个item
rdd.first()
Out[8]:'# Apache Spark'
  1. 读取整个文件夹下的所有文件来创建一个RDD: 通过sc.wholeTextFiles去初始化一个RDD,RDD中的每个item是以(文件名,文件内容)的元组形式存储;
In [14]:
rdd = sc.wholeTextFiles('file:\\\\\\D:\spark\spark-2.2.0-bin-hadoop2.7\data\graphx')
rdd.first()
Out[14]:('file:/D:/spark/spark-2.2.0-bin-hadoop2.7/data/graphx/followers.txt',
 '2 1\n4 1\n1 2\n6 3\n7 3\n7 6\n6 7\n3 7\n')
  1. 其他RDD的初始化方法: HDFS中文件、sparkSQL、hive数据库,表等;
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值