Flume+Kafka+SparkStreaming整合

最新推荐文章于 2020-08-24 09:08:28 发布

原创

最新推荐文章于 2020-08-24 09:08:28 发布 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

本文档详细介绍了如何将Flume用于监控文件夹，通过文件流将数据传送到Kafka，再利用SparkStreaming进行处理的流程。包括了Flume的配置、运行命令、SparkStreaming程序的编写及运行后的结果展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

思路分析

flume监控文件夹，通过一个文件流，往文件夹下的文件中写入数据

文件流

创建文件流，去读取文件，运行之后将.class文件上传至集群
(1)scala版本：

import java.io.PrintWriter
import scala.io.Source

object cp {
  def main(args: Array[String]): Unit = {
    val source = Source.fromFile(args(0).toString,"UTF-8")
    val out = new PrintWriter(args(1).toString)
     val in = source.getLines()
    for(line <- in){
     Thread.sleep(500)
      out.println(line)
    }
    out.close()
    source.close()
  }
}

(2)java版本

import java.io.*;
	public class SocketTest {
		public static void main(String[] args) throws IOException, InterruptedException {
			File ctoFile = new File(args[0]);
			File dest=new File(args[1]);

			InputStreamReader rdCto = new InputStreamReader(new FileInputStream(ctoFile));
			OutputStreamWriter writer=new OutputStreamWriter(new FileOutputStream(dest));
			BufferedReader bfReader = new BufferedReader(rdCto);
			Buffer