统计hdfs中小文件的占比

本文介绍了一种统计HDFS文件系统中小文件占比的方法。通过遍历指定目录下的所有文件,比较文件大小与HDFS默认块大小,计算出小文件所占的比例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

package kaoshi831;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Options.CreateOpts.BlockSize;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;

//编写程序统计出HDFS文件系统中文件大小小于HDFS集群中的默认块大小的文件占比
public class tongji {

    public static void main(String[] args) throws IOException, InterruptedException, URISyntaxException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf, "hadoop");
        Path path = new Path("/");
        long blockSize;
        int smallfile = 0;
        int filecount = 0;
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(path, false);
        while(listFiles.hasNext()){
            filecount++;

            LocatedFileStatus next = listFiles.next();
            //获取每个文件的大小
            long len = next.getLen();
            //获取hdfs的默认块大小
            blockSize = next.getBlockSize();
            //如果小于默认block块的大小,则视为小文件
            if(len < blockSize){
                //指定目录下小文件计数器
                smallfile++;
            }
        }
        //计算小文件的占比,并输出
                String result = (smallfile * 1f /filecount * 100)+"%";
                System.out.println(result);
                System.out.println(blockSize);
        fs.close();
    }

}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值