hadoop集群搭建-Windows (hadoop cluster on Windows)

本文介绍了如何在Windows Server 2008 R2或2012上搭建Hadoop集群,使用HDP 1.1 for Windows。详细步骤包括环境准备、安装JDK、Python、.NET Framework、Visual C++ Redistributable,关闭防火墙和IPv6,启用远程脚本功能等。同时提供了单节点和多节点集群的搭建方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hortonwork公司推出了能在 windows平台上运行的大数据处理平台:HDP for Windows ,可以使得hadoop集群运行在 windows(windows server 2008 R2, windows server 2012)上。 本文使用HDP 1.1 for Windows和Windows server 2008R2来搭建hadoop集群。

所需软硬件环境:

 1)Windows Server 2008 R2 64bit 或者 windows server 2012 64bit。
 2)JDK6u30以上版本。
 3)python2.7或以上版本。
 4)Microsoft.NET framework 4.0或以上版本。
 5)Microsoft Visual C++ 2010 Redistributable Package (64 bit)。
可以用若干台机器来安装,也可以用一台机器借助虚拟化软件建多台虚拟机安装。
HDP 1.1 for Windows 下载地址:  http://hortonworks.com/products/releases/hortonworks-data-platform-1-1-for-windows/#install
windows Server 2008 R2下载地址:  http://www.microsoft.com/en-us/download/details.aspx?id=11093  ,可以试用 180 天。也可以下载iso 文件以虚拟机(Oracle virtualbox 或者 vmware )安装(每个虚拟机 2G或 2G以上内存)。

1. 搭建一个单节点集群 :

    1.1 下载并安装windows server 2008 R2
    1.2 下载并安装 Microsoft Visual C++ 2010 Redistributable Package (64 bit) , 文件名:vcredist_x64.exe, 下载地址 : http://www.microsoft.com/en-us/download/details.aspx?id=14632
    1.3 下载并安装Microsoft.NET framework 4.0 , 文件名:dotNetFx40_Full_setup.exe, 下载地址 :http://www.microsoft.com/en-us/download/confirmation.aspx?id=17851
    1.4 下载并安装jdk6u30以上版本(安装路径不要含有空格) ,设置 JAVA_HOME环境变量,并将%JAVA_HOME%\bin加入PATH系统环境变量. 验证:运行java -version

### 安装和配置Spark于Hadoop集群 #### 准备工作 为了使 Spark 能够运行在 Hadoop 集群之上,需先准备好环境。这包括已成功部署并正常工作的 Hadoop 全分布式集群[^1]。 #### 下载与解压Spark安装包 获取适合版本的 Spark 发行版,并将其下载到所有节点上的相同路径下。接着,在每台机器上执行命令来解压缩该文件夹: ```bash tar zxvf spark-*.tgz ``` 此操作会创建一个名为 `spark-*` 的目录结构,其中包含了 Spark 所有必要的组件以及文档说明等资源。 #### 修改配置文件 进入刚刚解压出来的 Spark 文件夹内的 conf 子目录里找到 `spark-env.sh.template` 并复制一份重命名为 `spark-env.sh`. 接下来编辑这个新的 shell script 来设置一些重要的环境变量以便让 Spark 正确识别 YARN 和 HDFS: ```bash cp spark-env.sh.template spark-env.sh vi spark-env.sh ``` 向上述脚本添加如下几项设定(具体参数视实际情况而定): - 设置 SPARK_HOME 变量指向当前 Spark 安装位置; - 如果使用 Scala 编写应用程序,则还需要指定 SCALA_HOME; - 添加 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 指向 Hadoop/Yarn 的配置文件所在的位置; 这些更改使得 Spark 可以访问到 Hadoop 提供的服务接口从而实现两者之间的交互协作. #### 启动服务 完成以上步骤之后就可以启动 Spark on YARN 了。可以通过提交测试作业的方式验证整个过程是否顺利完成。例如可以尝试运行 Pi 计算例子程序来看看能否得到预期的结果输出: ```bash ./bin/spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn-cluster \ --num-executors 3 --driver-memory 512m --executor-memory 512m \ --executor-cores 1 lib/spark-examples*.jar 10 ``` 这段命令将会把 Spark 应用作为客户端模式提交给 YARN 进行调度管理,并分配三个 executor 实例用于实际的数据处理任务当中去.
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值