PySpark系列教程--1.起航

搭建环境

本次使用的环境版本为hadoop3.2.1和spark3.0.2

1. 安装JDK

推荐安装jdk8

2. 安装hadoop

  1. 下载hadoop,推荐使用国内镜像
  2. 解压到本地,路径不能包含空格!
  3. 配置环境变量HADOOP_HOME,并在PATH中增加%HADOOP_HOME%\bin
  4. 在cmd中测试安装是否成功
    在这里插入图片描述

3. 安装spark

  1. 下载Spark:spark-3.0.2-bin-hadoop3.2.tgz,推荐使用国内镜像
  2. 解压到指定路径,路径不能包含空格!
  3. 配置环境变量,配置SPARK_HOME,并且在PATH中添加%SPARK_HOME\bin%
  4. 在命令行测试是否安装成功
    在这里插入图片描述

4. 安装python

  1. 推荐安装python3,这里使用python3.9

5. 下载winutils

  1. 下载地址:https://codechina.youkuaiyun.com/mirrors/cdarlint/winutils
  2. 选择需要的版本,将相关文件复制到本地的%HADOOP_HOME%\bin下面

6. 安装pyspark、findspark

  1. 使用pip安装pyspark和findspark
pip install pyspark findspark

7. 测试第一个pyspark程序

import findspark
findspark.init()
from pyspark import SparkContext

sc = SparkContext("local","first app")
data = sc.textFile("../datas/test.txt")
count = data.count()
print(count)

8. 配置pyspark访问hive

  1. 将被访问的hadoop集群中的相关配置文件复制到本地hadoop集群中,具体文件是$HADOOP_HOME/etc/hadoop/下的yarn-site.xml、core-site.xml、hdfs-site.xml、hadoop-env.sh、mapred-site.xml、workers
  2. 将$HADOOP_HOME/etc/hadoop/下的相关文件复制到本地%SPARK_HOME%\conf下,具体文件有yarn-site.xml、core-site.xml和hdfs-site.xml

9. 测试windows下的pyspark访问hive

  1. 测试程序
import findspark
findspark.init()

from pyspark.sql import SparkSession
import warnings
warnings.filterwarnings('ignore')

spark = SparkSession.builder.master("local[*]")\
    .appName("test").enableHiveSupport().getOrCreate()
read_df=spark.sql("select * from test1")
read_df.show()
  1. 测试结果
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值