统计hdfs中小文件的占比

最新推荐文章于 2024-11-29 10:28:30 发布

原创最新推荐文章于 2024-11-29 10:28:30 发布 · 656 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hdfs文件系统

HDFS 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种统计HDFS文件系统中小文件占比的方法。通过遍历指定目录下的所有文件，比较文件大小与HDFS默认块大小，计算出小文件所占的比例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

package kaoshi831;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Options.CreateOpts.BlockSize;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;

//编写程序统计出HDFS文件系统中文件大小小于HDFS集群中的默认块大小的文件占比
public class tongji {

    public static void main(String[] args) throws IOException, InterruptedException, URISyntaxException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf, "hadoop");
        Path path = new Path("/");
        long blockSize;
        int smallfile = 0;
        int filecount = 0;
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(path, false);
        while(listFiles.hasNext()){
            filecount++;

            LocatedFileStatus next = listFiles.next();
            //获取每个文件的大小
            long len = next.getLen();
            //获取hdfs的默认块大小
            blockSize = next.getBlockSize();
            //如果小于默认block块的大小，则视为小文件
            if(len < blockSize){
                //指定目录下小文件计数器
                smallfile++;
            }
        }
        //计算小文件的占比，并输出
                String result = (smallfile * 1f /filecount * 100)+"%";
                System.out.println(result);
                System.out.println(blockSize);
        fs.close();
    }

}