spark | 做基本计算和批量提交

最新推荐文章于 2024-05-05 22:58:10 发布

原创

最新推荐文章于 2024-05-05 22:58:10 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #python

这篇博客介绍了初学者如何在Ubuntu环境下使用Spark进行基本计算。通过一个案例展示了数据处理过程，包括总购买数、唯一用户数、总收入和最流行产品等指标的计算。此外，还提及了如何进行批量计算，只需将PySpark脚本放在Spark目录下执行，适用于大型程序的高效处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

初学spark，就按照书上的来学习

１、首先，在ubunu下登录到拥有spark权限的用户下。

#以我的为例，我的用户名是hadoop
su hadoop 
#这里会提示输入密码
＃切换到spark目录下
＃cd /home/hadoop/spark

2、启动python环境

./bin/pyspark

3、以一个案例为例子来介绍，数据见底部的百度云链接

# -*- coding:utf-8 -*- 
from pyspark import SparkContext

＃定义SparkContext对象,2个线程，命名为First Spark App
sc = SparkContext("local[2]", "First Spark App")
＃读数据，放在spark/data下
data = sc.textFile("data/UserPurchaseHistory.csv").map(lambda line: line.split(