centos7离线安装spark2.4.7及基本pyspark运行示例

1.安装原因

公司最有在搞一个项目,项目中的etl沿用了旧版本的etl,而旧版本的etl是通过pyspark做的,略坑的是旧版的pyspark用的python依赖的是centos7自带的,也就是python2.7,作为曾经被python2.7一通好坑的我,想着说啥得把python版本换了,因为低版本的python2.7官方都早已不维护了,缺少sparksql中各种api以及python里的api,总之我是不换不行了。由于以后的实施环境都是内网,所以不能采用在线安装方式,所以这里需要离线安装python3.6.11和spark2.4.7

 

2.前置环境

公司的大数据集群环境采用的是ambari管理,这里我直接调用就可,在这里提前说一下,ambari安装集群是方便,但是当你遇到坑的时候真的是一头包(仅仅吐槽)

已有组件:

1.hadoop 3.1.1.3.1.0.0-78(基于ambari)

2.jdk1.8.0_144

3.配置了master到slave的免密登录,单向免密登录

集群环境,三台机器,相信通过名字大家就能知道他们是干嘛的

192.168.23.2  master.hdp2.com

192.168.23.3  slave.hdp3.com

192.168.23.4  slave.hdp4.com

 

3.安装python3.6.11

安装python是通过make&&install离线安装

1.python安装前置小条件(仅仅针对我们环境,如果你们碰不到这个问题,可以忽略这个前置条件,我所遇到的是如果没自己手动安装这两个组件,那么在安装python的时候会提示你缺少zlib工具,其实不影响python的使用,但是看到报错就是不开心)

zip-3.0-11.el7.x86_64.rpm     

zlib-devel-1.2.7-18.el7.x86_64.rpm

安装命令:rpm  -ivh XXX.rpm

这两个包,我们的基础环境缺少这两个组件,在centos系统下需要手动安装他们两个,如果是ubantu系统,他们的名字就不是这个了,它们都可以zlib的官方查看到

2.安装python3.6.11

有情提示:我把所有的需要的这些个都拷贝在服务器的/usr/pyspark_package路径下

Python-3.6.11.tgz 

安装命令如下:

tar -xvf  Python-3.6.11.tgz      

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值