从0到1搭建Spark+Hadoop大数据平台

最新推荐文章于 2022-08-24 05:36:38 发布

原创

最新推荐文章于 2022-08-24 05:36:38 发布 · 347 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hadoop #linux

本文详细介绍了如何从零开始搭建Spark与Hadoop的大数据平台。包括安装环境设定、JDK的安装、SSH无密登录的配置、Hadoop与Spark的安装与配置，以及集群的启动与验证。提供了完整的步骤和配置文件修改说明。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从0到1搭建Spark+Hadoop大数据平台
|

Hadoop与spark集群安装
安装环境
主机名
IP
Master
119.23.155.53
Worker
120.78.251.92
Worker
120.79.107.12
Worker
120.79.118.18
安装软件版本
1、 Scala-2.11.7
2、 spark-1.5.1-bin-hadoop2.6 .tgz
3、 hadoop-2.6.2.tar.gz
安装开始
JDK 安装
实验安装的是jdk1.8版本，具体安装步骤及环境变量设置参考这里
略（自行百度安装）
SSH 无密登录
下面是我写的一个自动化SSH 无密登录脚本，运行脚本前需要安装expect包，ubuntu 系统下直接执行：sudoapt-get install expect就可以了(linux执行yum install expect)。该脚本运行在namenode上，运行时只需要将IP_1改成对应的datanode地址，PWD_1是对应datanode密码。
#NO_PWD_SSH
#!/bin/sh
IP_1=120.78.251.92,120.79.107.12, 120.79.118.18
PWD_1=traffic1BABA
key_generate(){
expect -c “settimeout -1;
spawnssh-keygen -t dsa;
expect {
{Enter filein which to save the key*} {send – \r;exp_continue}
{Enterpassphrase*} {send – \r;exp_continue}
{Enter samepassphrase again:} {send – \r;exp_continue}
{Overwrite(y/n)*} {send – n\r;exp_continue}
eof {exit 0;}
};”
}

auto_ssh_copy_id() {
expect -c “settimeout -1;
spawnssh-copy-id -i $HOME/.ssh/id_dsa.pub root@$1;
expect {
{Areyou sure you want to continue connecting *} {send – yes\r;exp_continue;}
{*password:} {send – $2\r;exp_continue;}
eof{exit 0;}
};”
}

rm -rf~/.ssh

key_generate

ips_1= $(e c h o$ IP_1 | tr ‘,’ ’ ')
for ip in$ips_1
do
auto_ssh_copy_id $ip $PWD_1
done

eval&(ssh-agent)
ssh-add
安装Hadoop2.6.2