弹性分布式数据集(RDD)是一组不可变的JVM对象的分布集,可以用于执行高速运算,它是Apache Spark的核心。
在pyspark中获取和处理RDD数据集的方法如下:
1. 首先是导入库和环境配置(本测试在linux的pycharm上完成)
import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"
conf = SparkConf().setAppName('test_rdd')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)
2. 然后,提供hdfs分区数据的路径或者分区表名
txt_File = r"hdfs://host:port/apps/hive/warehouse/数据库名.db/表名/分区名/part-m-00029.deflate" # part-m-00029.deflate
# txt_File = r"hdfs://host:port/apps/hive/warehouse/数据库名.db/表名" # hive table,即也可直接根据表名读取
3. sc.textFile进行读取,得到RDD格式数据<还可以用 spark.sparkContext.parallelize(data) 来获取RDD数据>,参数中还可设置数据被划分的分区数
txt_ = sc.textFile(txt_File)
4. 基本操作:
type(txt_):显示数据类型,这时属于

本文介绍了如何在pyspark中通过SparkContext的textFile方法获取HDFS数据,处理RDD的基本操作,包括数据类型检查、数据切片、过滤和转换。重点讲解了如何使用lambda表达式和map函数进行数据处理,以及如何谨慎使用collect方法获取大量数据。
最低0.47元/天 解锁文章
2342

被折叠的 条评论
为什么被折叠?



