离线分析HDFS的FsImage查找集群小文件

最新推荐文章于 2025-02-18 13:46:00 发布

首席撩妹指导官

最新推荐文章于 2025-02-18 13:46:00 发布

阅读量498

点赞数

本文链接：https://blog.youkuaiyun.com/qq_36864672/article/details/129288862

版权

大数据同时被 3 个专栏收录

160 篇文章

订阅专栏

hadoop

4 篇文章

订阅专栏

hdfs

4 篇文章

订阅专栏

文章介绍了如何使用HDFS的oiv命令解析FsImage文件成CSV，然后加载到Hive，接着通过Sqoop抽取Hive元数据到Hive表，再用Impala执行SQL进行小文件分析。主要涉及HDFS元数据统计、Hive库表统计，通过file_nums、blockcounts和avg_filesize指标识别小文件问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

离线FsImage分析脚本

本篇文章Fayson的分析脚本主要基于HDFS提供的oiv命令来进行FsImage离线分析，将FsImage文件解析问指定的csv格式数据，如下脚本分析的具体步骤：

1.使用hdfs命令获取FsImage数据文件

[root@cdh02 fsimage]# hdfs dfsadmin -fetchImage ./tmp_meta

2.使用hdfs oiv命令解析FsImage文件

[root@cdh02 fsimage]# hdfs oiv -i ./tmp_meta/fsimage_0000000000008236656 -o ./tmp_meta/fsimage.csv -p Delimited

3.将解析的csv文件加载到Hive的HDFS_META_TEMP表中

[root@cdh02 fsimage]# sed -i -e "1d" ./tmp_meta/fsimage.csv
[root@cdh02 fsimage]# hdfs dfs -rmr /tmp/hdfs_metadata/fsimage
[root@cdh02 fsimage]# hdfs dfs -mkdir -p /tmp/hdfs_metadata/fsimage
[root@cdh02 fsimage]# hdfs dfs -copyFromLocal ./tmp_meta/fsimage.csv /tmp/hdfs_metadata/fsimage

4.使用Sqoop脚本将Hive元数据中关于Hive库和表的信息抽取的Hive中

sqoop import \
--connect "jdbc:mysql://${DB_IPADDR}:${DB_PORT}/${META_DB_NAME}" \
--username ${DB_USERNAME} \
--password ${DB_PASSWORD} \
--query 'select c.NAME,c.DB_LOCATION_URI,a.TBL_NAME,a.OWNER,a.TBL_TYPE,b.LOCATION from TBLS a,SDS b,DBS c where a.SD_ID=b.SD_ID and a.DB_ID=c.DB_ID and $CONDITIONS' \
--fields-terminated-by ',' \
--delete-target-dir \
--hive-database ${DB_NAME} \
--target-dir /tmp/${TARG_HIVE_TB} \
--hive-import \
--hive-overwrite \
--hive-table ${TARG_HIVE_TB} \
--m ${MAP_COUNT}

5.执行base.sql文件创建分析的Impala表

6.执行analyse_sql/all_hdfs.sql语句通过各个维度查找小文件

离线分析脚本目录结构如下：

analyse_sql：主要存放分析小文件的SQL语句

base_sql：主要存放建表语句及基础数据生成SQL脚本

config-env.sh：脚本主要用户配置集群信息（如：ImpalaDaemon访问地址、存储的表名、临时文件存放目录等）

[root@cdh02 fsimage]# more config-env.sh
#!/bin/bash
###定义一些全局的变量
DB_NAME=hdfs_metadata
IMPALAD=cdh01.fayson.com:25003

#sqoop抽数写入Hive表配置参数
DB_IPADDR=cdh02.fayson.com
DB_PORT=3306
META_DB_NAME=metastore
DB_USERNAME=root
DB_PASSWORD=123456
TARG_HIVE_TB=hive_tables_temp
MAP_COUNT=1

*.keytab：两个keytab文件为前面环境准备过程中导出的hive和hdfs用户

offline_fsimage.sh：脚本主要用于创建分析用户的数据表及生成分析需要的数据

offline_analyse.sh：脚本用于执行analyse_sql目录的SQL语句

[root@cdh02 fsimage]# more offline_analyse.sh
#!/bin/bash
source ./config-env.sh

impala-shell -i $IMPALAD --var=DB_NAME=${DB_NAME} -f ./analyse_sql/all_hdfs.sql

sqoop_hive_metadata.sh：用于Sqoop抽取MySQL中Hive元数据表数据到Hive仓库

[root@cdh02 fsimage]# more sqoop_hive_metadata.sh
#!/bin/bash
#将Hive元数据库中的库及表等信息抽取到Hive仓库
sqoop import \
--connect "jdbc:mysql://${DB_IPADDR}:${DB_PORT}/${META_DB_NAME}" \
--username ${DB_USERNAME} \
--password ${DB_PASSWORD} \
--query 'select c.NAME,c.DB_LOCATION_URI,a.TBL_NAME,a.OWNER,a.TBL_TYPE,b.LOCATION from TBLS a,SDS b,DBS c where a.SD_ID=b.SD_ID and a.DB_ID=c.DB_ID and $CONDITIONS' \
--fields-terminated-by ',' \
--delete-target-dir \
--hive-database ${DB_NAME} \
--target-dir /tmp/${TARG_HIVE_TB} \
--hive-import \
--hive-overwrite \
--hive-table ${TARG_HIVE_TB} \
--m ${MAP_COUNT}

tmp_meta：该目录主要用于存放HDFS的元数据及oiv生成的csv文件

3基于HDFS数据目录统计分析

如下统计方式主要基于HDFS的数据目录进行统计分析，统计HDFS指定目录下所有数据文件数、Block数量、文件总大小（bytes）及平均文件大小（bytes）。

统计中有两个重要参数parent_id和instr(path,'/',1,2)这两个参数主要表示指定统计的HDFS目录以及目录钻取深度，instr()函数中的最后一个参数即为目录钻取深度（如果为parent_id=1为根目录“/”，钻取深度则为2，即根目录下所有的数据目录，需要钻取根深的目录则依次递增）。

1. HDFS根目录统计分析

SELECT a.*,
b.file_nums,
b.blockcounts,
b.filesizes,
(b.filesizes/b.file_nums) AS avg_filesize
FROM
(SELECT id,
path,
username,
modification_time
FROM HDFS_META_DIRS
WHERE parent_id=1) a
JOIN
(SELECT strleft(path, instr(path,'/',1,2)-1) basepath,
sum(blockcount) blockcounts,
sum(filesize) filesizes,
count(*) file_nums
FROM HDFS_META_FILES
GROUP BY basepath) b ON a.path=b.basepath
ORDER BY b.file_nums desc,avg_filesize asc;

2.指定HDFS数据目录统计分析

SELECT a.*,
b.file_nums,
b.blockcounts,
b.filesizes,
(b.filesizes/b.file_nums) AS avg_filesize
FROM
(SELECT id,
path,
username,
modification_time
FROM HDFS_META_DIRS
WHERE parent_id=2) a
JOIN
(SELECT strleft(path, instr(path,'/',1,3)-1) basepath,
sum(blockcount) blockcounts,
sum(filesize) filesizes,
count(*) file_nums
FROM HDFS_META_FILES
GROUP BY basepath) b ON a.path=b.basepath
ORDER BY b.file_nums desc,avg_filesize asc;

4基于Hive库和表的统计分析

如下统计方式主要基于Hive库和表的统计分析，统计Hive中所有库存的数据文件数、Block数量、文件总大小(bytes)及平均文件大小(bytes)。

1.基于Hive库的统计分析

SELECT n.*,
(n.filesizes/n.file_nums) AS avg_filesize
FROM hdfs_meta_dirs p,

(SELECT a.id,
b.dbname,
count(*)
FROM hdfs_meta_dirs a
JOIN hive_table_details b ON a.path=b.db_path
GROUP BY a.id,
b.dbname) m,

(SELECT a.dbname,
count(1) file_nums,
sum(b.blockcount) blockcounts,
sum(b.filesize) filesizes
FROM hive_table_details a,
hdfs_meta_files b
WHERE a.fid=b.fid
GROUP BY a.dbname) n
WHERE p.id=m.id
AND m.dbname=n.dbname
order by file_nums desc,avg_filesize asc;

2.基于Hive表的统计分析

select n.*,(n.filesizes/n.file_nums) AS avg_filesize from hdfs_meta_dirs p,
(select a.id,b.dbname,count(*) from hdfs_meta_dirs a join hive_table_details b on a.path=b.db_path group by a.id, b.dbname) m,
(SELECT
a.dbname,a.tbl_name,
count(1) file_nums,
sum(b.blockcount) blockcounts,
sum(b.filesize) filesizes
FROM hive_table_details a,
hdfs_meta_files b
WHERE a.fid=b.fid
GROUP BY a.dbname,a.tbl_name) n
where p.id=m.id and m.dbname=n.dbname
order by file_nums desc,avg_filesize asc
limit 20;