Selector
复制模式
- Selector 默认是复制模式(replicating),即把source复制,然后分发给多个sink;
- 配置项 说明
selector.type replicating 表示复制模式,source的selector如果不配置,默认就是这种模式
在复制模式下,当source接收到数据后,会复制多分,分发给每一个avro sink
selector.optional 标志通道为可选
a1.sources = r1
a1.channels = c1 c2 c3
a1.source.r1.selector.type = replicating(这个是默认的)
a1.source.r1.channels = c1 c2 c3
a1.source.r1.selector.optional = c3
多路复用模式
- 在这种模式下,用户可以指定转发的规则。selector根据规则进行数据的分发
- 配置项 说明
selector.type multiplexing 表示路由模式
selector.header 指定要监测的头的名称
selector.mapping.* 匹配规则
selector.default 如果未满足匹配规则,则默认发往指定的通道
示例
概述
01机利用http source接收数据,根据路由规则,发往02,03机。02,03通过avro source接收数据,通过logger sink 打印数据
1. 01机配置示例
#配置Agent a1 的组件
a1.sources=r1
a1.sinks=s1 s2
a1.channels=c1 c2
#描述/配置a1的source1
a1.sources.r1.type=http
a1.sources.r1.port=8888
a1.sources.r1.selector.type=multiplexing
a1.sources.r1.selector.header=state
a1.sources.r1.selector.mapping.big1907=c1
a1.sources.r1.selector.mapping.big1908=c2
a1.sources.r1.selector.default=c2
#描述sink
a1.sinks.s1.type=avro
a1.sinks.s1.hostname=192.168.234.212
a1.sinks.s1.port=9999
a1.sinks.s2.type=avro
a1.sinks.s2.hostname=192.168.234.213
a1.sinks.s2.port=9999
#描述内存channel
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000
a1.channels.c1.transactionCapacity=100
a1.channels.c1.transactionCapacity=100
a1.channels.c2.type=memory
a1.channels.c2.capacity=1000
a1.channels.c2.transactionCapacity=100
#为channel 绑定 source和sink
a1.sources.r1.channels=c1 c2
a1.sinks.s1.channel=c1
a1.sinks.s2.channel=c
- 02,03配置示例:
#配置Agent a1 的组件
a1.sources=r1
a1.sinks=s1
a1.channels=c1
#描述/配置a1的source1
a1.sources.r1.type=avro
a1.sources.r1.bind=0.0.0.0
a1.sources.r1.port=9999
#描述sink
a1.sinks.s1.type=logger
#描述内存channel
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000
a1.channels.c1.transactionCapacity=100
#为channel 绑定 source和sink
a1.sources.r1.channels=c1
a1.sinks.s1.channel=c1
Interceptor-拦截器
- Flume有能力在运行阶段修改/删除Event,这是通过拦截器(Interceptors)来实现的
- 拦截器需要实现org.apache.flume.interceptor.Interceptor接口
- 拦截器可以修改或删除事件基于开发者在选择器中选择的任何条件
- 拦截器采用了责任链模式,多个拦截器可以按指定顺序拦截
- 一个拦截器返回的事件列表被传递给链中的下一个拦截器
- 如果一个拦截器需要删除事件,它只需要在返回的事件集中不包含要删除的事件即可
- 如果要删除所有事件,只需返回一个空列表
Processor
- Sink Group允许用户将多个Sink组合成一个实体
- Flume Sink Processor 可以通过切换组内Sink用来实现负载均衡的效果,或在一个Sink故障时切换到另一个Sink
- Load Balancing Sink Processor
- 提供了在多个sink之间实现负载均衡的能力
- 它维护了一个活动sink的索引列表
- 它支持轮询或随机方式的负载均衡,默认值是轮询方式,可以通过配置指定
- 可以通过实现AbstractSinkSelector接口实现自定义的选择机制