从无到有的搭建pyspark环境(windows10)

欢迎来到广志大兄弟吹牛逼的博客,一个小菜菜,自主摸索一些条条框框,看看大佬们的行业方向。自我有点小成绩,就拿出来秀一秀。废话不多说,尽情欣赏正文~

下载安装所需文件

需要准备的内容大体如下:

  • java环境
  • python环境
  • hadoop环境在本机上
  • spark环境

以上内容都是安装在windows上的,并且为单实例单节点的开发环境。如果需要上linux上,请自行查找资料如何配置环境。

安装java环境

别的我不废话,因为很简单,如果已经安装好了,配置好了环境变量,请跳过这一步。但是要注意一点,安装的java环境JAVA_HOME路径不能带有空格。
至于为什么?请自行脑补你遇到从没看到过的ERROR的情绪状态和处理方式。

  1. 下载地址点击这里下载 选择对应你windows 进行下载,一般都是64位的;
  2. 安装,傻瓜式安装,只不过要注意安装过程中选择安装路径。默认会让你安装到一个叫Program Files的位置,注意这里是有空格的,推荐创建一个没有空格的目录(有的人喜欢叫它文件夹);
  3. 配置环境变量,环境变量这个东西理解就是linux中的profile,他能提供全局的命令使用。至于怎么配置,已经被好多大佬写成了傻瓜的不能再傻瓜的操作了。具体操作我会贴出一篇文章链接,在没有贴出来之前,请自行搜索。
  4. 测试,以上内容安装好了,打开命令行(windows+R__cmd)输入java -version,返回的结果中显示你安装的java版本就说明已经成功安装了java环境;

安装python环境

注意敲黑板划重点我们这里介绍的是spark1.6.0版本安装,这个版本的是不支持python3.5.X版本以下的版本的。so,我们此次安装的python版本为3.5.6

python的版本安装其实有很多种方法,去官网下载傻瓜式操作安装、使用源码安装、使用编程工具下载安装。我们今天说的是一个比较厉(niu)害(bi)的安装方法:使用anaconda安装

anaconda能提供多个环境的python,且互相之间可以随意切换。能让你的电脑中存在多个python环境,想要用那个就让那个生效。不仅提供了编程环境,附带的还有一些编程工具,比较强大的就是Jupyter,提供列斯python notebook的编程工具,能让我们来做页面编程。

说说如何安装anaconda?别闹了,我怕有人打我,说这也用教?那我就简单说一下
网络下载–傻瓜安装
只需要你点点点,就能安装成功了。
安装完成之后,打开anaconda navigator的应用程序,能看到你当前安装默认的python环境。

-广志在这里小坑你一下,上面给出的下载链接,安装的环境都不是我们想要的,而且这个环境是默认生效的。也就是说,它直接替换了你电脑上原来安装的任何python环境,不过不用担心。我们既然无法接受就改变他。
打开命令行windows + R

  1. 输入
conda info -e   # 查看当前安装的python环境

# conda environments:
#
base * D:\ProgramData\Anaconda3

显示的内容如上(路径是广志电脑上的安装路径)

  1. 输入
#创建一个名为py35的环境(英文名字可以随便起,写上你女神的名字都没问题),指定Python版本是3.5(不用管是3.5.x,conda会为我们自动寻找3.5.x中的最新版本)
conda create --name py35 python=3.5

会自动显示一堆下载进度

  1. 再次执行步骤1的操作,就可以看到两条记录,说明已经有两个环境在我们的机器中了,但是有个*标识了现在生效的环境。我们需要将环境切换为我们当前安装的py35
conda activate py35
  1. 然后通过命令查询就会发现已经激活了你的排映35
 conda info -e # 查看anaconda环境中激活的python环境

python -V # 查看当前电脑中的python环境
  1. 多说一句,如果手抖安装错了python环境,但是他已经在那了,如何删除这个不想要碍眼东东呢?
conda remove --name python34 --all  #删除一个已有环境

安装hadoop

1. 首先是下载hadoop2.6.0安装包,这里点击就可以下载。

2. 下载之后进行解压到一个目录中

3. 推荐目录的地址中也没有空格。

使用解压工具就可以解压,推荐360解压在关掉一些全家桶的提示之后,用起来很顺畅。就是有的时候解压7z的文件有点慢。推荐目录的地址中也没有空格。使用解压工具就可以解压,推荐360解压在关掉一些全家桶的提示之后,用起来很顺畅。就是有的时候解压7z的文件有点慢。

4. 然后要下载binaries文件

(这里给出的是github地址),这个类似于只适用于windows的编译文件。还别说,没这个还真不行。可以自己编译(这里给出的是github地址),这个类似于只适用于windows的编译文件。还别说,没这个还真不行。可以自己编译

5. 东西都放好了之后,又要去指定环境变量了

HADOOP_HOME:D:\Soft\hadoop-2.7.6
PATH里面添加上:;%HADOOP_HOME%\bin;

6. 检验hadoop 环境是否正确

hadoop version 

返回显示的内容能正常显示hadoop版本。说明环境变量生效。

7. 修改hadoop配置,设置为单机模式。

7.1) core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/D:/Soft/hadoop-2.6.0/workplace/tmp</value>
<description>namenode上本地的hadoop临时文件夹</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
<description>HDFS的URI,文件系统://namenode标识:端口号</description>
</property>
<configuration>
7.2) hdfs-site.xml
<configuration>
<!-- 这个参数设置为1,因为是单机版hadoop -->
<property>
<name>dfs.replication</name>
<value>1</value>
<description>副本个数,配置默认是3,应小于datanode机器数量</description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/D:/Soft/hadoop-2.7.6/workplace/data</value>
<description>datanode上数据块的物理存储位置</description>
</property>
<property>
<name>dfs.name.dir</name>
<value>/D:/Soft/hadoop-2.7.6/workplace/name</value>
<description>namenode上存储hdfs名字空间元数据 </description>
</property>
</configuration>
7.3) mapred-site.xml
<--没有就将mapred-site.xml.template重命名为mapred-site.xml-->
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://localhost:9001</value>
</property>
</configuration>
7.4) yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
7.5) hadoop-env.cmd
#文件中要指定JAVA_HOME,推荐使用绝对路径
JAVA_HOME=C:\java\jdk1.8.0_171

8 替换bin文件

将我们步骤4中下载的bin文件替换掉原有解压在bin目录的文件

9 打开命令行执行命令,格式化主节点

hdfs namenode -format

如果多次格式化,会让你选择Y或者N,确认你是否真的要格式化。正常Y就可以

10 启动hadoop

# 进入hadoop的sbin目录中
start-all.cmd

页面中会啪啪啪啪 跳出来四个命令行窗口,千万别关。
这是正在启动相关的进程
点击以下两个网址验证了hadoop配置成功
资源管理页面
节点管理页面

安装Spark

【未完待续】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值