配置hadoop+pyspark环境

本文详细介绍了如何配置Hadoop伪分布式环境,包括安装JDK、配置hosts、SSH无密码登录,以及Hadoop的各个配置文件设置、格式化和启动。接着,文章讲解了Scala的简介和安装,然后介绍了Spark的下载、解压和配置,以及如何在本地、Hadoop YARN和Spark Standalone Cluster上运行PySpark。内容覆盖了Hadoop的常用命令和Web界面,以及Spark的运行模式总结。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

配置hadoop+pyspark环境

1、部署hadoop环境

配置hadoop伪分布式环境,所有服务都运行在同一个节点上。

1.1、安装JDK

安装jdk使用的是二进制免编译包,下载页面

  • 下载jdk
$ cd /opt/local/src/
$ curl -o jdk-8u171-linux-x64.tar.gz  http://download.oracle.com/otn-pub/java/jdk/8u171-b11/512cd62ec5174c3487ac17c61aaa89e8/jdk-8u171-linux-x64.tar.gz?AuthParam=1529719173_f230ce3269ab2fccf20e190d77622fe1 
  • 解压文件,配置环境变量
### 解压到指定位置
$ tar -zxf jdk-8u171-linux-x64.tar.gz -C /opt/local

### 创建软连接
$ cd /opt/local/
$ ln -s jdk1.8.0_171 jdk

### 配置环境变量,在当前用的配置文件 ~/.bashrc 增加如下配置
$ tail ~/.bashrc 

# Java 
export JAVA_HOME=/opt/local/jdk
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
  • 刷新环境变量
$ source ~/.bashrc

### 演那种是否生效,返回java信息说明正确
$ java -version
java version "1.8.0_171"
Java(TM) SE Runtime Environment (build 1.8.0_171-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)

1.2、配置/etc/hosts

### 配置/etc/hosts 把主机名和IP地址一一对应
$ head -n 3 /etc/hosts
# ip --> hostname or domain
192.168.20.10    node

### 验证
$ ping node -c 2
PING node (192.168.20.10) 56(84) bytes of data.
64 bytes from node (192.168.20.10): icmp_seq=1 ttl=64 time=0.063 ms
64 bytes from node (192.168.20.10): icmp_seq=2 ttl=64 time=0.040 ms

1.3、设置ssh无密码登录

  • 生成SSH key
### 生成ssh key
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  • 配置公钥到许可文件authorizd_keys
### 需要输入密码
ssh-copy-id node

### 验证登录,不需要密码即为成功
$ ssh node

1.4、安装配置hadoop

  • 下载hadoop
### 下载Hadoop2.7.6
$ cd /opt/local/src/
$ wget -c http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz
  • 创建hadoop相关目录
$ mkdir -p /opt/local/hdfs/{namenode,datanode,tmp}
$ tree /opt/local/hdfs/
/opt/local/hdfs/
├── datanode
├── namenode
└── tmp
  • 解压hadoop安装文件
### 解压到指定位置
$ cd /opt/local/src/
$ tar -zxf hadoop-2.7.6.tar.gz -C /opt/local/

### 创建软连接
$ cd /opt/local/
$ ln -s hadoop-2.7.6 hadoop

1.5、配置hadoop

1.5.1、 配置core-site.xml
$ vim /opt/local/hadoop/etc/hadoop/core-site.xml
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/opt/local/hdfs/tmp/</value>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://node:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
</configuration>
1.5.2、 配置hdfs-site.xml
$ vim /opt/local/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/local/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/local/hdfs/datanode</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>
1.5.3、 配置mapred-site.xml
### mapred-site.xml需要从一个模板拷贝在修改
$ cp /opt/local/hadoop/etc/hadoop/mapred-site.xml.template  /opt/local/hadoop/etc/hadoop/mapred-site.xml
$ vim /opt/local/hadoop/etc/hadoop/mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>node:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>node:19888</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.done-dir</name>
        <value>/history/done</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.intermediate-done-dir</name>
        <value>/history/done_intermediate</value>
    </property>
</configuration>
1.5.4、 配置yarn-site.xml
$ vim /opt/local/hadoop/etc/hadoop/yarn-site.xml
<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
### 回答1: 您好,关于hadooppyspark环境安装与运行实战,以下是一些基本步骤: 1. 安装Java环境hadooppyspark都需要Java环境,因此需要先安装Java。 2. 安装hadoop:可以从官网下载hadoop的二进制文件,然后解压到指定目录。接着需要配置hadoop环境变量和一些配置文件,如hadoop-env.sh、core-site.xml、hdfs-site.xml等。 3. 启动hadoop:启动hadoop需要先格式化namenode,然后启动hdfs和yarn。 4. 安装pyspark:可以通过pip安装pyspark,也可以从官网下载pyspark的二进制文件。安装完成后需要配置pyspark环境变量和一些配置文件,如spark-env.sh、spark-defaults.conf等。 5. 运行pyspark:可以通过命令行或者编写脚本来运行pyspark。在运行pyspark之前需要先启动hadoop和yarn。 以上是一些基本的步骤,具体的安装和配置过程可能会因为不同的操作系统和版本而有所不同。希望对您有所帮助。 ### 回答2: HadoopPyspark是当前大数据处理领域比较流行的两个工具,它们分别提供了大数据分布式处理和Python语言的分布式计算支持。为了学习和运用它们,正确安装和配置环境是非常重要的。本文将介绍HadoopPyspark环境安装与运行实践,分为以下几个步骤: 一、Hadoop的安装与配置 1. 下载Hadoop 首先需要下载Hadoop,可以从官网下载最新版本,也可以在网上下载其他版本。下载后解压,可以得到hadoop-3.3.0文件夹。 2. 配置环境变量 在安装Hadoop之前,需要配置环境变量,将Hadoop的bin目录添加到系统的Path中。具体步骤如下: 在系统环境变量中增加HADOOP_HOME,变量值为Hadoop根目录的所在路径,例如:D:\hadoop\hadoop-3.3.0。 在系统环境变量Path中添加%HADOOP_HOME%\bin。 3. 修改配置文件 Hadoop配置文件存放在hadoop-3.3.0目录的/etc/hadoop文件夹中,需要对其中的配置文件进行修改。主要修改hadoop-env.sh和core-site.xml文件。 hadoop-env.sh配置文件中可以设置Hadoop的一些环境变量,包括JAVA_HOME和HADOOP_CONF_DIR等。需要将JAVA_HOME配置Java JDK的安装路径。 core-site.xml配置文件中需要设置Hadoop存储数据的位置。在本地开发环境下,可以将数据存储在本地的一个文件夹内。 4. 启动Hadoop 启动Hadoop需要执行以下命令: start-dfs.sh:启动Hadoop的分布式文件系统。 start-yarn.sh:启动Hadoop的资源管理器。 二、Pyspark的安装与配置 1. 下载Pyspark Pyspark可以从Apache官网上下载最新版本,也可以通过pip安装。下载后解压,可以得到spark-3.1.2-bin-hadoop3.2文件夹。 2. 配置环境变量 在安装Pyspark之前,同样需要配置环境变量,将Pyspark的bin目录添加到系统的Path中。具体步骤与Hadoop类似,可以参考上面的步骤。 3. 修改配置文件 在Pyspark的conf目录下,有一个spark-env.sh.template文件,需要将其复制为spark-env.sh,并进行修改。主要需要设置SPARK_HOME和PYTHONPATH等环境变量。 4. 启动Pyspark 启动Pyspark需要执行以下命令: pyspark:启动Pyspark Shell。 spark-submit:启动Pyspark应用程序。 三、实战操作 1. Hadoop实战 启动Hadoop后,可以通过Hadoop的一些命令进行测试。例如,创建一个文件夹,执行以下命令: hadoop fs -mkdir /test 可以通过以下命令查看/目录下的文件: hadoop fs -ls / 在Hadoop运行过程中,可以通过localhost:8088访问Hadoop的Web界面。 2. Pyspark实战 启动Pyspark后,可以通过以下命令创建一个RDD并查看其中的元素: nums = sc.parallelize([1, 2, 3, 4]) nums.collect() 可以看到输出结果为[1, 2, 3, 4]。 同时,也可以通过Pyspark Shell进行一些简单的计算。例如,计算10000以内的质数: sieve = sc.parallelize(range(2, 10000)) for i in range(2, 100): sieve = sieve.filter(lambda x: x == i or x % i != 0) sieve.collect() 可以看到输出结果为一个10000以内的质数列表。 以上就是HadoopPyspark环境安装和运行实践的简单介绍。它们是大数据处理和分布式计算领域中非常重要的工具,掌握它们的使用方法对于从事相关工作的人员是非常必要的。在实际操作中,还需要不断学习、实践和总结,以便更好地应对各种复杂情况。 ### 回答3: HadoopPySpark是目前大数据处理的主要平台之一,对于学习和实践数据处理技术很有帮助。在本文中,将介绍如何安装和运行HadoopPySpark环境。 1. Hadoop环境安装和运行实战 Hadoop是一个分布式处理大数据的框架,可以有效地处理大规模数据。安装Hadoop环境主要分为三个步骤: 1)JDK的安装 首先需要下载JDK(Java开发工具包)的安装包,并安装到本机上。JDK安装后要设置JAVA_HOME环境变量。 2)Hadoop的安装 下载Hadoop的安装包,并将其解压到本机上的一个文件夹中。在hadoop-env.sh文件中设置HADOOP_HOME和JAVA_HOME两个环境变量。 3)Hadoop的运行 在终端中输入“bin/hadoop namenode -format”,初始化并格式化Hadoop的文件系统。之后输入“sbin/start-all.sh”启动Hadoop集群,并在浏览器中访问http://localhost:50070查看Hadoop的状态。 2. PySpark环境安装和运行实战 PySpark是一个基于Python的Spark。安装PySpark环境主要分为两个步骤: 1)安装Anaconda 下载Anaconda并安装到本机上。Anaconda是一个包含Python解释器、支持科学计算的Python库和工具的集成包。 2)安装PySpark 在终端中输入“conda install pyspark”即可安装PySpark。安装完成后,可以在终端中输入“pyspark”启动PySpark,也可以在Python代码中使用PySpark相关的库和API。 总结: 以上是HadoopPySpark环境安装和运行的实战介绍。通过本文的学习,可以了解到如何配置HadoopPySpark环境,并实现相关的数据处理操作。这对于数据处理学习者和从事相关工作的人员具有重要意义。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值