阿里腾讯云 hadoop+spark集群搭建(2)

本文详细介绍了在CentOS7环境下,如何使用Shell脚本下载并搭建Hadoop 3.1.1和Spark 2.3.2集群,包括配置文件修改、Anaconda3安装及Spark环境变量设置,最后通过运行脚本成功启动Hadoop和Spark服务。

阿里腾讯云 hadoop+spark集群搭建(2)

linux版本: centos7

hadoop版本: 3.1.1

spark版本: 2.3.2


在1中已经搭建好了hadoop,接下来就是spark。

为方便起见,用shell脚本完成下载spark、hive(后面再搭,先把spark跑起来)的操作。

download_file.sh
-------------------------------
#!/bin/bash
TARGET=files
HADOOP_VERSION=3.1.1
HIVE_VERSION=2.3.3
SPARK_VERSION=2.3.2
HADOOP_FILE=hadoop-$HADOOP_VERSION.tar.gz
HIVE_FILE=apache-hive-$HIVE_VERSION-bin.tar.gz
SPARK_FILE=spark-$SPARK_VERSION-bin-hadoop2.7.tgz

if [ ! -f "$HADOOP_FILE" ]; then
  echo "https://www-us.apache.org/dist/hadoop/common/hadoop-$HADOOP_VERSION/$HADOOP_FILE is downloading"
  curl -O https://www-us.apache.org/dist/hadoop/common/hadoop-$HADOOP_VERSION/$HADOOP_FILE
fi
echo "Hadoop is completed!"

if [ ! -f "$HIVE_FILE" ]; then
  echo "https://www-us.apache.org/dist/hive/hive-$HIVE_VERSION/$HIVE_FILE is downloading"
  curl -O https://www-us.apache.org/dist/hive/hive-$HIVE_VERSION/$HIVE_FILE
fi
echo "HIVE is completed!"

if [ ! -f "$SPARK_FILE" ]; then
  echo "https://www-us.apache.org/dist/spark/spark-$SPARK_VERSION/$SPARK_FILE is downloading"
  curl -O https://www-us.apache.org/dist/spark/spark-$SPARK_VERSION/$SPARK_FILE
fi
echo "$SPARK_FILE completed!"
  1. 运行脚本下载spark和hive

  2. 解压缩到~/hadoop下(hadoop用户身份)

    $ cd ~/hadoop
    
    $ ls
    
    hadoop-3.1.1  hive-2.3.3  spark-2.3.2
    
  3. 下载Anaconda3

    $ cd ~/hadoop
    $ ls
    hadoop-3.1.1  hive-2.3.3  spark-2.3.2
    

    由于我打算使用pyspark,且想使用python3,所以安装Anaconda3。

    $ curl -O https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.0-Linux-x86_64.sh
    $ ./Anaconda3-5.3.0-Linux-x86_64.sh
    
  4. 配置文件

    追加如下内容

    export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.b12-0.el7_5.x86_64
    export JRE_HOME=${JAVA_HOME}/jre
    export HADOOP_HOME=/home/hadoop/hadoop/hadoop-3.1.1
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export SPARK_MASTER_PORT=7077
    export SPARK_MASTER_HOST=master
    
    • slaves
    slave1
    slave2
    
    • log4j.properties

    若想日志信息仅记载警告信息,则将log4j.rootCategory=INFO, console改为log4j.rootCategory=WARN, console

    • /etc/profile.d/spark-2.3.2.sh
    export SPARK_HOME=/home/hadoop/hadoop/spark-2.3.2
    export PATH=$SPARK_HOME/bin:$PATH
    
    $ source /etc/profile
    

    以上内容master和slaves机器都要进行,master配置好拷贝过去就可以了。

  5. master机器运行spark

    $ cd $SPARK_HOME/sbin
    $ ./start-all.sh 
    <!--先执行start-master再执行start-slave-->
    $ jps
    16000 Master
    15348 NameNode
    15598 SecondaryNameNode
    16158 Jps
    <!--只启动了hdfs和spark-->
    

    打开http://master:8080(公网),显示Alive Workers:2,完成。

<think>我们正在回答用户关于在云平台上搭建Hadoop/Spark环境并处理Web日志的问题。用户特别提到了阿里云、腾讯云或AWS。我们将分步骤说明,包括创建ECS实例、安装Java、配置单节点Hadoop/Spark,以及上传和处理Apache日志文件。注意:由于是单节点环境,我们使用Hadoop的独立模式(LocalMode)或Spark的本地模式(LocalMode)即可。步骤概述:1.在云平台创建ECS实例(以阿里云为例,其他类似)2.安装JavaJDK3.安装和配置单节点Hadoop(可选)4.安装和配置Spark(可选,也可以独立安装Spark而不安装Hadoop)5.上传ApacheWeb服务器日志文件6.使用Hadoop/Spark处理日志文件(示例:统计访问次数最多的IP)由于用户要求的是单节点环境,我们不需要配置集群。下面详细说明每个步骤。###1.创建ECS实例在阿里云控制台:-登录阿里云,进入ECS控制台。-点击“创建实例”,选择地域和可用区。-选择实例规格(如2核4G,根据需求选择)。-选择镜像:Ubuntu20.04或CentOS7(这里以Ubuntu20.04为例)。-设置存储(默认40GB系统盘,可根据需要增加数据盘)。-设置安全组:开放SSH(22)、Web服务端口(80,443)以及Hadoop/Spark相关端口(如9000,8080等,单节点环境通常不需要,但若需要WebUI则开放)。-设置登录凭证(密钥对或密码)。-创建实例并获取公网IP。其他云平台步骤类似。###2.安装JavaJDK通过SSH连接到ECS实例,执行以下命令(以Ubuntu为例):```bash#更新系统sudoaptupdate#安装OpenJDK8sudoaptinstallopenjdk-8-jdk-y#验证安装java-version```如果显示Java版本信息,则安装成功。###3.安装和配置单节点Hadoop(可选)Hadoop在单节点模式下运行,不需要启动HDFS和YARN服务,仅作为本地文件系统使用。####下载和解压Hadoop```bash#下载Hadoop(以3.3.1为例)wgethttps://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gztar-xzvfhadoop-3.3.1.tar.gzsudomvhadoop-3.3.1/usr/local/hadoop#设置环境变量echo'exportHADOOP_HOME=/usr/local/hadoop'>>~/.bashrcecho'exportPATH=$PATH:$HADOOP_HOME/bin'>>~/.bashrcsource~/.bashrc```####配置Hadoop环境编辑`$HADOOP_HOME/etc/hadoop/hadoop-env.sh`,设置JAVA_HOME:```bashecho"exportJAVA_HOME=$(readlink-f/usr/bin/java|sed's:bin/java::')"|sudotee-a/usr/local/hadoop/etc/hadoop/hadoop-env.sh```由于是单节点,不需要修改其他配置文件(如core-site.xml,hdfs-site.xml等),默认就是本地文件系统。验证Hadoop:```bashhadoopversion```###4.安装和配置Spark(可选)Spark可以独立运行,不需要Hadoop,但需要Java。我们使用Spark的本地模式。####下载和解压Spark```bash#下载Spark(以3.1.2为例)wgethttps://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgztar-xzvfspark-3.1.2-bin-hadoop3.2.tgzsudomvspark-3.1.2-bin-hadoop3.2/usr/local/spark#设置环境变量echo'exportSPARK_HOME=/usr/local/spark'>>~/.bashrcecho'exportPATH=$PATH:$SPARK_HOME/bin'>>~/.bashrcsource~/.bashrc```验证Spark:```bashspark-shell--version```###5.上传ApacheWeb服务器日志文件Apache日志通常位于`/var/log/apache2/access.log`(Ubuntu)或`/var/log/httpd/access_log`(CentOS)。但我们现在是在云服务器上,假设用户已有日志文件,需要上传到ECS实例。####上传文件到ECS-使用`scp`命令将本地日志文件上传到ECS实例:```bashscp-i[密钥文件路径][本地日志文件路径]ubuntu@[ECS公网IP]:~/```####日志格式Apache日志的常见格式(CombinedLogFormat):```127.0.0.1--[10/Oct/2023:13:55:36+0800]"GET/index.htmlHTTP/1.1"2002326"http://example.com""Mozilla/5.0..."```###6.处理日志文件这里我们使用Spark进行日志分析(也可以使用HadoopMapReduce,但Spark更简单高效)。####使用Spark统计访问次数最多的IP启动SparkShell:```bashspark-shell```在SparkShell中执行以下Scala代码:```scala//定义日志解析函数defparseLogLine(line:String):(String,Int)={valpattern="""^(\S+).*""".rtry{valpattern(ip)=line(ip,1)}catch{casee:Exception=>("",0)}}//读取日志文件vallogFile="file:///home/ubuntu/access.log"//替换为你的日志文件路径vallogs=spark.sparkContext.textFile(logFile)//解析并统计IPvalipCounts=logs.map(parseLogLine).filter{case(ip,count)=>ip!=""}.reduceByKey(_+_).sortBy(_._2,ascending=false)//输出前10个访问最多的IPipCounts.take(10).foreach(println)```####使用HadoopMapReduce(可选)如果选择使用Hadoop,可以编写MapReduce程序,但单节点下通常直接使用本地文件系统,不需要启动HDFS。不过,由于用户要求单节点,使用Spark更为便捷。###总结以上步骤完成了在云平台ECS实例上搭建单节点Hadoop/Spark环境,并处理Web日志的基本流程。用户可以根据实际需求扩展分析内容。§§相关问题§§1.如何配置Hadoop集群模式(多节点)?2.如何配置Spark集群模式(Standalone或YARN模式)?3.除了统计IP访问次数,还有哪些常见的Web日志分析任务?4.如何将分析结果保存到文件或数据库中?</think>### 在云平台上搭建Hadoop/Spark环境处理Web日志 #### 1. 创建ECS实例(以阿里云为例) ```bash # 登录阿里云控制台 -> ECS -> 创建实例 # 选择配置:CPU 2核 / 内存 4GB / 系统盘 40GB # 镜像选择:Ubuntu 20.04 LTS # 安全组开放端口:22(SSH), 8080(Spark), 9870(HDFS) # 创建后获取公网IP:112.74.xxx.xxx ``` #### 2. 安装Java JDK ```bash ssh root@112.74.xxx.xxx apt update && apt upgrade -y apt install openjdk-11-jdk -y java -version # 验证安装 # 输出:openjdk version "11.0.15" 2022-04-19 ``` #### 3. 单节点Hadoop安装 ```bash wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz tar -xzvf hadoop-3.3.4.tar.gz -C /usr/local/ echo 'export HADOOP_HOME=/usr/local/hadoop-3.3.4' >> ~/.bashrc echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc source ~/.bashrc # 配置独立模式 cat > $HADOOP_HOME/etc/hadoop/core-site.xml <<EOF <configuration> <property> <name>fs.defaultFS</name> <value>file:///</value> </property> </configuration> EOF ``` #### 4. Spark安装(独立模式) ```bash wget https://downloads.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz tar -xzvf spark-3.3.1-bin-hadoop3.tgz -C /usr/local/ echo 'export SPARK_HOME=/usr/local/spark-3.3.1-bin-hadoop3' >> ~/.bashrc source ~/.bashrc # 启动Spark shell测试 spark-shell --master local[2] # 输出:Spark context Web UI available at http://112.74.xxx.xxx:4040 ``` #### 5. 处理Apache日志文件 **日志格式示例:** ``` 112.168.1.1 - - [15/Oct/2023:14:32:08 +0800] "GET /index.html HTTP/1.1" 200 2326 ``` **上传日志文件到ECS:** ```bash # 本地执行 scp -i key.pem access.log root@112.74.xxx.xxx:/data/ ``` **Spark分析脚本(Python):** ```python from pyspark.sql import SparkSession from pyspark.sql.functions import split, regexp_extract spark = SparkSession.builder.appName("LogAnalysis").getOrCreate() # 读取日志文件 logs = spark.read.text("/data/access.log") # 解析Apache日志 parsed = logs.select( regexp_extract('value', r'^(\S+)', 1).alias('ip'), regexp_extract('value', r'\[(\d{2}/\w{3}/\d{4}:\d{2}:\d{2}:\d{2})', 1).alias('timestamp'), regexp_extract('value', r'\"(\S+)\s+(\S+)\s+HTTP', 2).alias('url'), regexp_extract('value', r'\s(\d{3})\s', 1).cast('int').alias('status') ) # 统计状态码分布 status_counts = parsed.groupBy('status').count().orderBy('count', ascending=False) status_counts.show() # 输出示例: # +------+-----+ # |status|count| # +------+-----+ # | 200| 1200| # | 404| 85| # | 500| 12| # +------+-----+ # 统计访问量Top10 URL parsed.groupBy('url').count().orderBy('count', ascending=False).show(10) # 保存结果 status_counts.write.csv("/data/status_report") ``` #### 6. 定时任务配置 ```bash # 创建每日分析任务 crontab -e # 添加:0 2 * * * /usr/local/spark/bin/spark-submit /scripts/log_analysis.py ``` #### 关键配置说明 1. **单节点模式优势**:无需配置HDFS/YARN,适合小规模数据处理 2. **资源分配**:Spark的`local[2]`表示使用2个CPU核心 3. **日志解析**:正则表达式匹配Apache标准日志格式[^1] 4. **云平台通用性**:AWS EC2/Tencent CVM操作类似,仅控制台界面差异 > 注:生产环境建议使用EMR等托管服务,但单节点ECS适合学习和小规模处理[^3]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值