PySpark学习笔记（一）

最新推荐文章于 2025-02-19 10:10:56 发布

超超人不会飞

最新推荐文章于 2025-02-19 10:10:56 发布

阅读量544

点赞数

分类专栏： spark 文章标签： PySpark spark WordCount

本文链接：https://blog.youkuaiyun.com/qq_42316200/article/details/102576443

版权

这篇博客介绍了在Windows环境下配置PySpark的步骤，包括环境变量设置、PySpark和py4j包的导入，以及如何编写WordCount程序。文章强调了在打包和提交集群运行时的注意事项，如正确打包zip文件、避免命名冲突等，最后展示了提交脚本和成功运行的结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、环境准备

windows

python3.+

pycharm或者anaconda

spark安装版(解压好之后)

二、设置环境变量

添加系统变量（设置自己的路径）

1.spark

SPARK_HOME=D:/bigdatashare/spark-2.4.3-bin-hadoop2.7

Path=D:/bigdatashare/spark-2.4.3-bin-hadoop2.7/bin

2.Python

PYTHON_HOME=D:/Python3.7.0

Path=D:/Python3.7.0/bin

三、导入pyspark包+py4j包

1.可以复制解压好的spark安装包内的pyspark和py4j文件夹解压之后---->anaconda的安装目录下的site-packages文件夹下：

2.可

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

超超人不会飞

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据系列：PySpark学习笔记（一）

大数据Spark教程

12-11

839

介绍在处理和使用大数据时，Apache Spark是使用最广泛的框架之一，而Python是用于数据分析，机器学习等的最广泛使用的编程语言之一。那么，为什么不一起使用它们呢？这就是Spark with Python（也称为PySpark）出现的地方。由于Python有着丰富的库集，当今大多数数据科学家和分析专家都在使用Python 。Spark是用Scala语言开发的，它与J...

PySpark学习

baoguaalalei的博客

05-15

455

1、RDD创建：（1）从文件系统中加载数据创建RDD lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") （2）从HDFS中读取并加载数据 >>> lines = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt") >...

参与评论您还未登录，请先登录后发表或查看评论

Linux 多Python版本统一和 PySpark 依赖 python 包方案

最新发布

zfqzpp的专栏

02-19

763

PySpark 依赖 Python.zip 打包方式

pyspark学习

weixin_45621200的博客

06-15

319

pyspark学习入门

PySpark的学习

fly66666666的博客

03-31

1219

使用过的bin/pyspark程序要注意这个只是一个应用程序提供一个Python解释器执行环境来运行Spark任务现在说的PySpark,指的是Python的运行类库是可以在Python代码中:import pyspark PySpark 是Spark官方提供的一个Python类库内置了完全的Spark API,可以通过PySpark类库来编写Spark应用程序,并将其提交到Spark集群中运行. 下图是,PySpark类库和标准。

【入门】 PySpark 学习

Sunshine.wz的博客

03-05

871

PySpark 入门学习，从 WordCount 开始！

PySpark 学习笔记一

01-12

8815

为了更好地进行大数据分析与处理，最近在学习PySpark，整理了一下笔记，加深印象。 1 Resilient Distributed Datasets（RDD）弹性分布式数据集（RDD）是一个不可变的JVM对象的分布式集合，是Spark的基本抽象。 1.1 创建RDD 准备工作： >>> import pyspark >>> from pyspark import SparkC

PySpark学习笔记2-RDD算子，RDD持久化

little_TianYe的博客

01-06

779

rdd.sortByKey()按照键值进行排序，ascending确定升序和降序，numPartition确定分区大小，keyfunc确定排序之前最键值的处理方法。前者只有分组功能，但是后者除了分组功能还有聚合功能，后者在分区内会进行预聚合，在进行分组流程，被分组的数据量大大减少，提高了整体性能。rdd.union()合并两个RDD并返回一个RDD，只合并不去重，并且两个RDD的类型可以不同。rdd.distinct()对RDD数据进行去重，并返回新的RDD。

Pyspark学习笔记（一）---序言及目录

朝花&夕拾

05-25

599

前言提示：自己学习Pyspark时所记录笔记，以便日后回忆 1.学习spark时的一些官方API和参考文档 ################ Spark Python API and Docs ################### Spark Python API Docs i.pyspark package ii.pyspark.sql module iii.pyspark.ml package iv.pyspark.streaming module v.pyspark.mllib p..

PySpark学习笔记4-共享变量，内核调度

little_TianYe的博客

01-06

505

spark会使用DAG图进行内存计算，DAG图会根据分区和宽窄依赖划分阶段，每一个阶段饿的内部都是窄依赖，这些内存迭代计算的管道形成一个个具体的执行任务，一个任务对应一个线程，任务在线程中运行，就是在进行内存计算。对于Spark过程，会按照宽依赖划分不同的DAG阶段，从后向前，遇到一个宽依赖就换分出一个阶段，成为stage，二每个stage的内部一定都是窄依赖。窄依赖：父RDD的一个分区，将全部数据发给子RDD的一个分区。宽依赖：父RDD的一个分区会将数据发给子RDD的多个分区。

pyspark学习笔记

weixin_30763397的博客

07-19

174

记录一些pyspark常用的用法，用到的就会加进来 pyspark指定分区个数通过spark指定最终存储文件的个数，以解决例如小文件的问题，比hive方便，直观有两种方法，repartition，coalesce，并且，这两个方法针对RDD和DataFrame都有 repartition和coalesce的区别： repartition(numPartitions:Int):RDD[...

learning-pyspark.pdf

05-27

Learning pyspark It is estimated that in 2013 the whole world produced around 4.4 zettabytes of data; that is, 4.4 billion terabytes! By 2020, we (as the human race) are expected to produce ten times that. With data getting larger literally by the second, and given the growing appetite for making sense out of it, in 2004 Google employees Jeffrey Dean and Sanjay Ghemawat published the seminal paper MapReduce: Simplified Data Processing on Large Clusters. Since then, technologies leveraging the concept started growing very quickly with Apache Hadoop initially being the most popular. It ultimately created a Hadoop ecosystem that included abstraction layers such as Pig, Hive, and Mahout – all leveraging this simple concept of map and reduce.

PySpark入门级学习教程，框架思维（上）

Pysamlam的博客

04-11

1864

为什么要学习Spark？作为数据从业者多年，个人觉得Spark已经越来越走进我们的日常工作了，无论是使用哪种编程语言，Python、Scala还是Java，都会或多或少接触到Spark，它...

python学习之路 - PySpark快速入门

qq_41444892的博客

08-31

3221

pyspark快速入门

[Spark]PySpark入门学习教程---介绍(1)

摩登都市天空---专栏

04-16

5808

一安装指引安装这块本文就不展开具体的步骤了，毕竟大家的机子环境都不尽相同。不过可以简单说几点重要的步骤，然后节末放上一些安装示例供大家参考。 1）要使用PySpark，机子上要有Java开发环境 2）环境变量记得要配置完整 3）Mac下的/usr/local/ 路径一般是隐藏的，PyCharm配置py4j和pyspark的时候可以使用 shift+command+G 来使用路径访问。 4）Mac下如果修改了 ~/.bash_profile 的话，记得要重启下PyCharm才会生效的哈 5）版

pyspark学习笔记（一）

weixin_40169609的博客

09-07

385

启动 pyspark 默认 local 提交 pyspark-submit /usr/local/python/wordcount.py 关闭Info内容去配置log4j 将log4j.rootCategary=INFO,console中 INFO改成ERROR pyspark集群搭建 pyspark集群搭建遇到问题：pyspark.sql.utils.IllegalArgumentException: ‘java.net.UnknownHostException: master’ 解决方案：解决

PySpark 机器学习教程（一）

龙哥盟

08-18

400

UDF 广泛用于数据处理中，对数据帧进行某些变换。PySpark 有两种 UDF:传统的 UDF 和熊猫 UDF。熊猫 UDF 在速度和处理时间方面更强大。我们将看到如何在 PySpark 中使用这两种类型的 UDF。首先，我们必须从 PySpark 函数中导入udf。现在，我们可以通过使用 lambda 或典型的 Python 函数来应用基本的 UDF。

pySpark学习笔记N——数据的存储

NLP与推荐算法

01-26

1485

hi各位大佬早啊。我是菜鸟小明哥。在下载用户及item特征的时候出现问题，spark.sql得到的数据已经是dataframe了，但是我用.withColumn增加列后选择了分user或item存储在hdfs，这是种分片存储的方式（不知道我说的啥，详见下面代码吧），但这种就会出现问题：选择的列如果是空值的话，那么它不会以NULL的形式出现在hadoop getmerge的本地结果中，这就出现了有的行是13个特征，有的是14个特征，如下：照搬照抄是不行的，有坑。 For Recommendation in

PySpark入门

m0_54603030的博客

07-25

357

pyspark

大学PySpark教程：Jupyter笔记本实战指南

由于描述中提供的信息与标题一致，我们可以推测该教程可能包括PySpark的基础知识，如DataFrame和RDD的操作、Spark SQL以及可能的机器学习应用，因为这些是PySpark中常用的数据处理和分析概念。标签“jupyter-...