Hadoop分析日志实例的详细步骤及出现的问题分析和解决

本文介绍了一个Hadoop日志分析系统的设计与实现,包括日志格式解析、使用Eclipse开发工具处理日志,并将处理结果存入MySQL数据库的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1). 日志格式分析

首先分析 Hadoop 的日志格式, 日志是一行一条, 日志格式可以依次描述为:日期、时间、级别、相关类和提示信息。如下所示:

2014-01-07 00:31:25,393 INFO org.apache.hadoop.mapred.JobTracker: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down JobTracker at hadoop1/192.168.91.101
************************************************************/
2014-01-07 00:33:42,425 INFO org.apache.hadoop.mapred.JobTracker: STARTUP_MSG: 
/************************************************************
STARTUP_MSG: Starting JobTracker
STARTUP_MSG:   host = hadoop1/192.168.91.101
STARTUP_MSG:   args = []
STARTUP_MSG:   version = 1.1.2
STARTUP_MSG:   build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.1 -r 1440782; compiled by 'hortonfo' on Thu Jan 31 02:03:24 UTC 2013
************************************************************/
2014-01-07 00:33:43,305 INFO org.apache.hadoop.metrics2.impl.MetricsConfig: loaded properties from hadoop-metrics2.properties
2014-01-07 00:33:43,358 INFO org.apache.hadoop.metrics2.impl.MetricsSourceAdapter: MBean for source MetricsSystem,sub=Stats registered.
2014-01-07 00:33:43,359 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: Scheduled snapshot period at 10 second(s).
2014-01-07 00:33:43,359 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: JobTracker metrics system started
2014-01-07 00:33:43,562 INFO org.apache.hadoop.metrics2.impl.MetricsSourceAdapter: MBean for source QueueMetrics,q=default registered.
2014-01-07 00:33:44,118 INFO org.apache.hadoop.metrics2.impl.MetricsSourceAdapter: MBean for source ugi registered.
2014-01-07 00:33:44,118 INFO org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: Updating the current master key for generating delegation tokens
2014-01-07 00:33:44,119 INFO org.apache.hadoop.mapred.JobTracker: Scheduler configured with (memSizeForMapSlotOnJT, memSizeForReduceSlotOnJT, limitMaxMemForMapTasks, limitMaxMemForReduceTasks) (-1, -1, -1, -1)
2014-01-07 00:33:44,120 INFO org.apache.hadoop.util.HostsFileReader: Refreshing hosts (include/exclude) list
2014-01-07 00:33:44,125 INFO org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: Starting expired delegation token remover thread, tokenRemoverScanInterval=60 min(s)
2014-01-07 00:33:44,125 INFO org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: Updating the current master key for generating delegation tokens
2014-01-07 00:33:44,126 INFO org.apache.hadoop.mapred.JobTracker: Starting jobtracker with owner as root
2014-01-07 00:33:44,187 INFO org.apache.hadoop.metrics2.impl.MetricsSourceAdapter: MBean for source RpcDetailedActivityForPort9001 registered.
2014-01-07 00:33:44,187 INFO org.apache.hadoop.metrics2.impl.MetricsSourceAdapter: MBean for source RpcActivityForPort9001 registered.
2014-01-07 00:33:44,188 INFO org.apache.hadoop.ipc.Server: Starting SocketReader
2014-01-07 00:33:44,490 INFO org.mortbay.log: Logging to org.slf4j.impl.Log4jLoggerAdapter(org.mortbay.log) via org.mortbay.log.Slf4jLog
2014-01-07 00:33:44,805 INFO org.apache.hadoop.http.HttpServer: Added global filtersafety (class=org.apache.hadoop.http.HttpServer$QuotingInputFilter)
2014-01-07 00:33:44,825 INFO org.apache.hadoop.http.HttpServer: Port returned by webServer.getConnectors()[0].getLocalPort() before open() is -1. Opening the listener 

这只是部分日志。


2). 程序设计
本程序是在个人机器用 Eclipse 开发,该程序连接 Hadoop 集群,处理完的结果存储在MySQL 服务器上。
MySQL 数据库的存储信息的表“hadooplog”的 SQL 语句如下:

drop table if exists  hadooplog;
create table hadooplog(
    id int(11) not null auto_increment,
    rdate varchar(50)  null,
    time varchar(50) default null,
    type varchar(50) default null,
    relateclass tinytext default null,
    information longtext default null,
    primary key (id)
) engine=innodb default charset=utf8;

操作如下:进入mysql 直接执行sql语句就行,创建一个hadooplog表

 3). 程序代码

package com.wzl.hive;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.SQLException;

/**
 * 该类的主要功能是负责建立与 Hive 和 MySQL 的连接, 由于每个连接的开销比较大, 所以此类的设计采用设计模式中的单例模式。
 */
class DBHelper {
        private static Connection connToHive = null;
        private static Connection connToMySQL = null;

        private DBHelper() {
        }

        // 获得与 Hive 连接,如果连接已经初始化,则直接返回
        public static Connection getHiveConn() throws SQLException {
                if (connToHive == null) {
                        try {
                                Class.forName("org.apache.hadoop.hive.jdbc.HiveDriver");
                        } catch (ClassNotFoundException err) {
                                err.printStackTrace();
                                System.exit(1);
                        }
                        connToHive = DriverManager.getConnection("jdbc:hive://192.168.91.101:10000/default", "hive", "");
                }
                return connToHive;
        }

        // 获得与 MySQL 连接
        public static Connection getMySQLConn() throws SQLException {
                if (connToMySQL == null) {
                        try {
                                Class.forName("com.mysql.jdbc.Driver");
                        } catch (ClassNotFoundException err) {
                                err.printStackTrace();
                                System.exit(1);
                        }

                        connToMySQL = DriverManager.getConnection("jdbc:mysql://192.168.91.101:3306/hive?useUnicode=true&characterEncoding=UTF8",
                                        "root", "root"); //编码不要写成UTF-8
                }
                return connToMySQL;
        }

        public static void closeHiveConn() throws SQLException {
                if (connToHive != null) {
                        connToHive.close();
                }
        }

        public static void closeMySQLConn() throws SQLException {
                if (connToMySQL != null) {
                        connToMySQL.close();
                }
        }
        
        public static void main(String[] args) throws SQLException {
                System.out.println(getMySQLConn());
                closeMySQLConn();
        }

}

package com.wzl.hive;

import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

/**
 * 
 * 针对 Hive 的工具类
 */
class HiveUtil {
        // 创建表
        public static void createTable(String sql) throws SQLException {
                Connection conn = DBHelper.getHiveConn();
                Statement stmt = conn.createStatement();
                ResultSet res = stmt.executeQuery(sql);
        }

        // 依据条件查询数据
        public static ResultSet queryData(String sql) throws SQLException {
                Connection conn = DBHelper.getHiveConn();
                Statement stmt = conn.createStatement();
                ResultSet res = stmt.executeQuery(sql);
                return res;
        }

        // 加载数据
        public static void loadData(String sql) throws SQLException {
                Connection conn = DBHelper.getHiveConn();
                Statement stmt = conn.createStatement();
                ResultSet res = stmt.executeQuery(sql);
        }

        // 把数据存储到 MySQL 中
        public static void hiveToMySQL(ResultSet res) throws SQLException {
                Connection conn = DBHelper.getMySQLConn();
                Statement stmt = conn.createStatement();
                while (res.next()) {
                        String rdate = res.getString(1);
                        String time = res.getString(2);
                        String type = res.getString(3);
                        String relateclass = res.getString(4);
                        String information = res.getString(5) + res.getString(6) + res.getString(7);
                        StringBuffer sql = new StringBuffer();
                        sql.append("insert into hadooplog values(0,'");
                        sql.append(rdate + "','");
                        sql.append(time + "','");
                        sql.append(type + "','");
                        sql.append(relateclass + "','");
                        sql.append(information + "')");
                        System.out.println(sql.toString());
                        int i = stmt.executeUpdate(sql.toString());
                }
        }
}

package com.wzl.hive;

import java.sql.ResultSet;
import java.sql.SQLException;

public class AnalyszeHadoopLog {

        public static void main(String[] args) throws SQLException {
                StringBuffer sql = new StringBuffer();

                // 第一步:在 Hive 中创建表
                sql.append("create table if not exists loginfo( ");
                sql.append("rdate string,  ");
                sql.append("time array<string>, ");
                sql.append("type string, ");
                sql.append("relateclass string, ");
                sql.append("information1 string, ");
                sql.append("information2 string, ");
                sql.append("information3 string)  ");
                sql.append("row format delimited fields terminated by ' '  ");
                sql.append("collection items terminated by ','   ");
                sql.append("map keys terminated by  ':'");

                System.out.println(sql);
                HiveUtil.createTable(sql.toString());

                // 第二步:加载 Hadoop 日志文件
                sql.delete(0, sql.length());
                sql.append("load data local inpath ");
                sql.append("'/usr/local/hadoop/logs/hadoop-root-jobtracker-hadoop1.log'");
                sql.append(" overwrite into table loginfo");
                System.out.println(sql);
                HiveUtil.loadData(sql.toString());

                // 第三步:查询有用信息
                sql.delete(0, sql.length());
                sql.append("select rdate,time[0],type,relateclass,");
                sql.append("information1,information2,information3 ");
                sql.append("from loginfo where type='INFO'");
                System.out.println(sql);
                ResultSet res = HiveUtil.queryData(sql.toString());
                // 第四步:查出的信息经过变换后保存到 MySQL 中
                HiveUtil.hiveToMySQL(res);
                // 第五步:关闭 Hive 连接
                DBHelper.closeHiveConn();

                // 第六步:关闭 MySQL 连接
                DBHelper.closeMySQLConn();
        }
}

4). 运行结果
在执行之前要注意的问题:

  1. 在运行前必须保证hive远端服务端口是开的  执行命令:nohup hive --service hiveserver  &  如果没有执行这句命令常出现这个错误:Could not establish connection to 192.168.91.101:10000/default: java.net.ConnectException: Connection refused: connect
  2. mysql已经建立了hadooplog表
  3. mysql数据库允许本机连接数据库执行命令:grant all privileges on *.* to root@'%' identified by 'root'; 这句意思是允许任何的ip都能访问mysql数据库。如果如果没有执行这句命令常出现这个错误:java连接linux中mysql出现:Access denied for user 'root'@'192.168.91.1' (using password: YES)

mysql> use hive;
mysql> show tables;
mysql> select * from hadooplog;

5). 经验总结
在示例中同时对 Hive 的数据仓库库和 MySQL 数据库进行操作,虽然都是使用了 JDBC接口,但是一些地方还是有差异的,这个实战示例能比较好地体现 Hive 与关系型数据库的异同。
如果我们直接采用 MapReduce 来做,效率会比使用 Hive 高,因为 Hive 的底层就是调用了 MapReduce,但是程序的复杂度和编码量都会大大增加,特别是对于不熟悉 MapReduce编程的开发人员,这是一个棘手问题。Hive 在这两种方案中找到了平衡,不仅处理效率较高,而且实现起来也相对简单,给传统关系型数据库编码人员带来了便利,这就是目前 Hive被许多商业组织所采用的原因。


<think>好的,我现在需要帮助用户找到在Hadoop 3.x版本下安装配置高可用(HA)模式的详细步骤。用户提供的引用内容中有一些相关的配置安装步骤,我需要结合这些信息,同时补充一些Hadoop HA的必要步骤。 首先,用户提到的引用[4][5]涉及到Hadoop 3.x的安装配置。例如,引用[4]提到解压安装包时需要注意root用户的限制,可能需要修改配置文件。引用[5]中的core-site.xml配置了fs.defaultFShadoop.tmp.dir,这是HA配置的一部分,因为需要指定NameNode的集群地址。 接下来,我需要回忆Hadoop HA的基本要求。HA通常需要两个或更多的NameNode,一个处于Active状态,另一个处于Standby状态,使用ZooKeeper来进行故障转移。此外,需要配置JournalNodes来共享编辑日志,确保两个NameNode的状态同步。 根据用户提供的引用,可能需要参考以下步骤: 1. 环境准备:确保所有节点的主机名、SSH免密登录、Java环境正确配置。用户引用[3]提到了解压JDK到指定目录,可能也需要安装Java。 2. 安装Hadoop:解压Hadoop安装包到指定目录,如引用[3][4]中的操作。注意用户权限问题,可能需要使用非root用户。 3. 配置文件修改:包括core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml等。引用[5]中的core-site.xml示例已经配置了fs.defaultFS为hdfs://mycluster,这可能是HA的集群名称。需要补充其他配置,如ZooKeeper地址、JournalNodes配置等。 4. 配置高可用组件:设置JournalNodes,配置ZooKeeper,以及设置自动故障转移。用户没有直接提到这些,但这是HA的必要步骤。 5. 启动验证:启动ZooKeeper、JournalNodes、NameNodes、DataNodes等,并验证HA功能。 此外,用户引用[2]提到上传文件到HDFS,可能在配置完成后需要测试HDFS的可用性。引用[1]中的Hadoop集群实例规划可能需要调整为一主一备的结构。 需要注意的问题包括:Hadoop 3.x对root用户的限制,如引用[4]所述,可能需要修改配置文件中的用户权限设置。此外,确保所有节点的配置文件同步,避免配置不一致导致的问题。 现在需要将这些步骤整理成详细的教程,结合用户提供的引用内容,并补充必要的HA配置步骤。同时,要检查是否有遗漏的配置项,例如hdfs-site.xml中的HA相关属性,如dfs.ha.automatic-failover.enabled、dfs.journalnode.rpc-address等。 可能还需要指导用户如何启动各个服务,包括格式化NameNode、启动JournalNodes、初始化ZKFC等。这些都是HA配置中的关键步骤,用户如果没有这些步骤可能会导致配置失败。 最后,验证HA是否正常工作,例如手动触发故障转移,检查服务是否自动切换,确保数据一致性服务可用性。</think>### Hadoop 3.x 高可用(HA)模式配置步骤 #### 一、环境准备 1. **节点规划**:至少部署两个NameNode(主备)三个JournalNode(奇数节点),DataNodeZooKeeper节点按需扩展。例如: - NameNode: `nn1`, `nn2` - JournalNode: `jn1`, `jn2`, `jn3` - ZooKeeper: `zk1`, `zk2`, `zk3` [^1] 2. **系统配置**: - 所有节点配置主机名解析(`/etc/hosts`)。 - 配置SSH免密登录(NameNode之间需互通)。 - 安装Java 8+,路径需统一(参考[^3]解压JDK步骤)。 #### 二、安装Hadoop 1. **解压安装包**(注意非root用户): ```bash tar -zxvf hadoop-3.3.6.tar.gz -C /opt/module # 参考[^4] ``` 2. **配置环境变量**(`/etc/profile`): ```bash export HADOOP_HOME=/opt/module/hadoop-3.3.6 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` #### 三、核心配置文件 1. **core-site.xml**: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value> <!-- HA集群逻辑名称 --> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/data</value> <!-- 参考[^5],路径需存在 --> </property> <property> <name>ha.zookeeper.quorum</name> <value>zk1:2181,zk2:2181,zk3:2181</value> <!-- ZooKeeper集群地址 --> </property> </configuration> ``` 2. **hdfs-site.xml**: ```xml <property> <name>dfs.nameservices</name> <value>mycluster</value> </property> <property> <name>dfs.ha.namenodes.mycluster</name> <value>nn1,nn2</value> <!-- 两个NameNode逻辑名 --> </property> <property> <name>dfs.namenode.rpc-address.mycluster.nn1</name> <value>nn1:8020</value> </property> <property> <name>dfs.namenode.http-address.mycluster.nn1</name> <value>nn1:9870</value> </property> <!-- 配置nn2的地址 --> <property> <name>dfs.journalnode.edits.dir</name> <value>/home/hadoop/journaldata</value> <!-- JournalNode数据目录 --> </property> <property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> <!-- 启用自动故障转移 --> </property> ``` #### 四、启动高可用组件 1. **启动JournalNode**(所有JournalNode节点): ```bash hadoop-daemon.sh start journalnode ``` 2. **格式化NameNode**(仅在**首次**执行): ```bash hdfs namenode -format # 在nn1上执行 scp -r /home/hadoop/data nn2:/home/hadoop/ # 同步元数据到nn2 ``` 3. **初始化ZKFC**: ```bash hdfs zkfc -formatZK # 在任一NameNode执行 ``` 4. **启动HDFS服务**: ```bash start-dfs.sh # 参考[^2]启动命令 ``` #### 五、验证HA功能 1. **查看NameNode状态**: ```bash hdfs haadmin -getServiceState nn1 # 应返回active或standby ``` 2. **模拟故障转移**: ```bash kill -9 <NameNode_PID> # 手动终止Active节点 ``` 观察备用节点是否自动切换为Active(通过日志或Web界面)。 ### 注意事项 1. **用户权限**:Hadoop 3.x默认禁止root用户启动,需创建专用用户(如`hadoop`)并配置权限[^4]。 2. **配置同步**:所有节点配置文件需完全一致,可通过`rsync`同步。 3. **日志排查**:若启动失败,检查`$HADOOP_HOME/logs`目录下日志
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值