初学spark,就按照书上的来学习
1、首先,在ubunu下登录到拥有spark权限的用户下。
#以我的为例,我的用户名是hadoop
su hadoop
#这里会提示输入密码
#切换到spark目录下
#cd /home/hadoop/spark
2、启动python环境
./bin/pyspark
3、以一个案例为例子来介绍,数据见底部的百度云链接
# -*- coding:utf-8 -*-
from pyspark import SparkContext
#定义SparkContext对象,2个线程,命名为First Spark App
sc = SparkContext("local[2]", "First Spark App")
#读数据,放在spark/data下
data = sc.textFile("data/UserPurchaseHistory.csv").map(lambda line: line.split(