PySpark 数据输入

最新推荐文章于 2024-05-12 20:37:30 发布

原创最新推荐文章于 2024-05-12 20:37:30 发布 · 142 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

python基础学习专栏收录该内容

12 篇文章

订阅专栏

本文介绍了如何在Spark中创建RDD对象，包括使用`SparkConf`和`SparkContext`，以及通过`parallelize`方法将Python对象转换为RDD，展示了不同类型的数据如列表、元组、字符串、集合和字典的处理，并使用`collect`方法查看内容。还提及了如何从文件读取数据转换为RDD。

RDD对象

数据容器·转换为RDD对象

# 创建SparkConf 类对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
# 拿到执行环境入口对象
sc = SparkContext(conf=conf)

# 通过parallelize 方法将python对象加载到spark内，成为RDD对象
rdd1 = sc.parallelize([1,2,3,4,5]) # 列表
rdd2 = sc.parallelize((1,2,3,4,5)) # 元组
rdd3 = sc.parallelize("abcdef") # 字符串
rdd4 = sc.parallelize({1,2,3,4,5}) # 集合
rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"}) # 字典

# 如果要查看rdd对象里的内容，需要用collect() 方法
print(rdd1.collect())  # 输出[1, 2, 3, 4, 5]
print(rdd2.collect())  # 输出[1, 2, 3, 4, 5]
print(rdd3.collect())  # 输出['a', 'b', 'c', 'd', 'e', 'f']
print(rdd4.collect())  # 输出[1, 2, 3, 4, 5]
print(rdd5.collect())  # 输出['key1', 'key2']

sc.stop()

读取文件转RDD对象

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Dalier.

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Pyspark-数据导入任务从374min降到7min

九筒的博客

09-01

350

数据量8000w，存储空间5G。使用Venus平台，将hive中的数据导入到后台Mysql中，采用Pyspark组件，通过参数调整将任务执行时间从374min降低到7min 背景任务是在Venus平台上，将hive中增量数据（8000w条/天）导入到后台Mysql中，并实现每天例行化，但由于数据量过大，导致spark写入效率极低优化思路 Pyspark代码 from pyspark.sql import SparkSession from pyspark import SparkContext impo

PySpark 数据处理实战：从基础操作到案例分析

1 条评论

优快云-Ada助手 2023.10.12
恭喜您写了第19篇博客！标题“PySpark 数据输入”听起来非常有趣。您的持续创作真是令人钦佩！在接下来的创作中，我建议您探索一下如何在PySpark中处理数据输出的问题。这将为读者提供更全面的知识，同时也能加深我们对于PySpark的理解。谢谢您的分享！