flume采集数据下沉到Kafka中，在临时保存到本地文件中，再将本地文件上传到HDFS

李东要努力

于 2019-10-16 16:28:39 发布

阅读量502

点赞数

本文链接：https://blog.youkuaiyun.com/weixin_45034355/article/details/102587293

版权

本文介绍了一个在虚拟机中通过Flume采集数据到Kafka，然后使用Java消费Kafka数据并保存到本地文件，最后将本地文件上传到HDFS的完整流程。涉及步骤包括启动zookeeper和Kafka，编写生产者和消费者，以及设置定时任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

思路：

在虚拟机上写一个脚本，为了制造假数据，通过flume下沉到Kafka。再通过Java代码从Kafka的Topic中获取数据临时保存到本地文件中，再将本地文件上传到HDFS上

1.虚拟机启动 zookeeper、Kafka。

2.在启动一个生产者、一个消费者。

注：脚本文件：/root/log

[root@hdp-1 log]# ./makelog.sh

while true
do
echo '000000000000000' >> access.log
sleep 0.1
done

3.Java代码实现具体思路

1.消费者：负责将数据存放到本地文件中

package flume;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.io.*;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Collecti

最低0.47元/天解锁文章