RDD对象

数据容器·转换为RDD对象

# 创建SparkConf 类对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
# 拿到执行环境入口对象
sc = SparkContext(conf=conf)
# 通过parallelize 方法将python对象加载到spark内,成为RDD对象
rdd1 = sc.parallelize([1,2,3,4,5]) # 列表
rdd2 = sc.parallelize((1,2,3,4,5)) # 元组
rdd3 = sc.parallelize("abcdef") # 字符串
rdd4 = sc.parallelize({1,2,3,4,5}) # 集合
rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"}) # 字典
# 如果要查看rdd对象里的内容,需要用collect() 方法
print(rdd1.collect()) # 输出[1, 2, 3, 4, 5]
print(rdd2.collect()) # 输出[1, 2, 3, 4, 5]
print(rdd3.collect()) # 输出['a', 'b', 'c', 'd', 'e', 'f']
print(rdd4.collect()) # 输出[1, 2, 3, 4, 5]
print(rdd5.collect()) # 输出['key1', 'key2']
sc.stop()
读取文件转RDD对象

本文介绍了如何在Spark中创建RDD对象,包括使用`SparkConf`和`SparkContext`,以及通过`parallelize`方法将Python对象转换为RDD,展示了不同类型的数据如列表、元组、字符串、集合和字典的处理,并使用`collect`方法查看内容。还提及了如何从文件读取数据转换为RDD。
350





