
Flume
文章平均质量分 92
Flume学习历程记录。
chaoql
长安大学软件工程专业硕士研究生在读,曾获蓝桥杯全国三等奖、互联网+全国三等奖等奖项,授权发明专利一篇,目前专注领域为:大模型应用、代码生成、大数据。欢迎交流!
展开
-
【Flume】高级组件之Sink Processors及项目实践(Sink负载均衡和故障转移)
Sink Processors类型包括这三种:Default Sink Processor、Load balancing Sink Processor和Failover Sink Processor。Default Sink Processor是默认的,不用配置Sink group,就是咱们现在使用的这种最普通的形式,一个Channel后面接一个Sink的形式;原创 2023-06-22 11:58:50 · 1822 阅读 · 0 评论 -
【Flume】高级组件之Channel Selectors及项目实践
通俗来讲,Channel Selectors组件控制Source采集到的数据分别流向哪些Channels。组件包括Replicating Channel Selector、Load Balancing Channel Selector和Multiplexing Channel Selector,其中Replicating Channel Selector是默认的Channel选择器,它会将Source采集过来的Event发往所有Channel;原创 2023-02-10 23:44:57 · 1162 阅读 · 0 评论 -
【Flume】高级组件之Source Interceptors及项目实践
Flume的核心组件包括:Source、Channel和Sink;Source Interceptors:Source可以指定一个或者多个拦截器按先后顺序依次对采集到的数据进行处理;Channel Selectors:Source发往多个Channel的策略设置,如果Source后面接了多个Channel,那么到底是给所有的Channel都发,还是根据规则发送到不同Channel,这些是由Channel Selectors来控制的;原创 2023-02-08 13:24:45 · 658 阅读 · 0 评论 -
【Flume】Flume实践之采集网站日志上传至HDFS
将机器A(bigData02)和机器B(bigData03)两台机器实时产生的日志数据汇总到机器C(bigData04)中,再通过机器C(bigData04)将数据统一上传至HDFS的指定目录中。因为一台机器可以有多个ip,例如:内网ip、外网ip,如果通过bind参数指定某一个ip的话,表示就只监听通过这个ip发送过来的数据了,这样会有局限性,所以使用通用ip。一共涉及到三个机器,其中机器A和B收集网站信息,并发送给机器C汇总传输到HDFS,因此需要配置三台机器,机器A和B的配置基本相同。原创 2023-02-06 15:34:32 · 1560 阅读 · 0 评论 -
【Flume】Flume实践之采集文件内容上传至HDFS
要完成这个任务就需要使用在采集数据时使用Spooling Directory Source组件;传输数据时为了保证数据没有丢失风险,使用File Channel组件;在运行Flume之前应该先检查建立采集数据的文件夹和文件,且系统此时直接启动会报错提示找不到SequenceFile,虽然我们已经把fileType改为了DataStream,但是Flume默认还是会加载这个类。Flume各个组件的参数很多,因此通常复制官网的各组件样例程序并参照参数表进行修改。解决了这个问题后,在。原创 2023-02-03 00:00:13 · 4101 阅读 · 0 评论 -
【Flume】Flume原理简述及示例实践
首先看左边这个Agent,给他起个名字叫 foo,有一个Source,Source后面接了3个Channel,表示Source读取到的数据会重复发送给每个Channel,每个Channel中的数据都是一样的,针对每个Channel都接了一个Sink,这三个Sink负责读取对应Channel中的数据,并且把数据输出到不同的目的地,Sink1负责把数据写到HDFS中,Sink2负责把数据写到一个Java消息服务数据队列中,Sink3负责把数据写给另一个Agent。的Agent,将Source组件命名为。原创 2023-02-02 14:37:26 · 1444 阅读 · 1 评论