统计hdfs中小文件的占比

本文介绍了一种统计HDFS文件系统中小文件占比的方法。通过遍历指定目录下的所有文件,比较文件大小与HDFS默认块大小,计算出小文件所占的比例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

package kaoshi831;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Options.CreateOpts.BlockSize;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;

//编写程序统计出HDFS文件系统中文件大小小于HDFS集群中的默认块大小的文件占比
public class tongji {

    public static void main(String[] args) throws IOException, InterruptedException, URISyntaxException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf, "hadoop");
        Path path = new Path("/");
        long blockSize;
        int smallfile = 0;
        int filecount = 0;
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(path, false);
        while(listFiles.hasNext()){
            filecount++;

            LocatedFileStatus next = listFiles.next();
            //获取每个文件的大小
            long len = next.getLen();
            //获取hdfs的默认块大小
            blockSize = next.getBlockSize();
            //如果小于默认block块的大小,则视为小文件
            if(len < blockSize){
                //指定目录下小文件计数器
                smallfile++;
            }
        }
        //计算小文件的占比,并输出
                String result = (smallfile * 1f /filecount * 100)+"%";
                System.out.println(result);
                System.out.println(blockSize);
        fs.close();
    }

}
要基于Flume实现实时数据采集并将数据注入Kafka,同时备份到HDFS,可以按照以下步骤操作: 1. **设置Flume源**[^1]: - 安装Flume,配置Source节点(如taildir)以监听特定目录的日志文件,定期读取新产生的数据。 ```xml <source> <taildir path="/path/to/logs"> <filerolling policy="time" interval="1d" /> </taildir> </source> ``` 2. **创建Flume中介**: - 设计一个或多个Channel(如Memory或File Channel),用于暂存数据。 - 创建Sink节点,如KafkaSink,将数据发送到指定的Kafka Topic。 ```xml <sink> <kafka> <bootstrap.servers>localhost:9092</bootstrap.servers> <topic>logs</topic> </kafka> </sink> ``` 3. **备份至HDFS**: - 如果有需求,可以在Sink节点后添加另一个HDFS Sink,配置好HDFS路径,将数据持久化到HDFS。 ```xml <hdfs> <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> <sourcetype>text</sourcetype> <format type="text">...</format> </hdfs> ``` 4. **Flink处理Kafka数据**: - 使用Apache Flink连接Kafka,定义Stream API来订阅Topic,对数据进行实时处理,如统计订单数量。 ```java StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<String> kafkaStream = env.addSource(new FlinkKafkaConsumer<>("logs", ...)); DataStream<Orders> ordersStream = kafkaStream.map(new Function<String, Orders>() {...}); ``` 5. **实时统计**[^2]: - 对于每个统计指标(如订单数量、退货比例等),在Flink流处理阶段编写相应逻辑。 - 订单数量统计示例: ```java CountFunction function = new CountFunction(); ordersStream.apply("count", function); ``` - Redis存储统计结果: - Flink支持JedisStateBackend,可以将计算结果写入Redis。 ```java env.registerKeyedStateStore(new JedisStateBackend("redis://localhost:6379")); ``` 记得根据实际情况调整上述配置和代码,包括连接地址、主题名、数据解析逻辑等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值