
flume
闻香识代码
这个作者很懒,什么都没留下…
展开
-
flume 面试题集锦
flume 面试题集锦1. flume事务上述是官网简介,可以看出事务体现在source到channel和channel到sink2个阶段对于数据的事物控制,其实可以分为3种,at least once,至少一次at most once最多一次exactly once刚好一次顾名思义,刚好一次是最好的,不多也不少,mysql就是采用这种机制,但带来的性能损耗是非常大的.大数据领域,一般采用至少一次,因为数据重复可以去重,但性能对于海量数据其实也是需要着重考虑的.数据也尽量不丢失,a原创 2020-10-11 11:30:33 · 2045 阅读 · 0 评论 -
Flume 总结(十)monitoring监控-1.9.0新版
Flume 总结(九)monitoring监控-1.9.0新版1. 监控JMX ReportingGanglia ReportingJSON ReportingCustom ReportingReporting metrics from custom components自定义监控原创 2020-10-11 10:03:51 · 204 阅读 · 0 评论 -
Flume 总结(七)interceptors类型-1.9.0新版
Flume 总结(七)interceptors类型-1.9.0新版1. interceptorsTimestamp InterceptorHost InterceptorStatic InterceptorRemove Header InterceptorUUID InterceptorMorphline InterceptorSearch and Replace InterceptorRegex Filtering InterceptorRegex Extractor原创 2020-10-10 23:29:42 · 216 阅读 · 1 评论 -
Flume 总结(九)Serializers类型-1.9.0新版
Flume 总结(九)Serializers类型-1.9.0新版1. SerializersBody Text Serializer“Flume Event” Avro Event SerializerAvro Event Serializer原创 2020-10-10 23:24:11 · 276 阅读 · 0 评论 -
Flume 总结(八)sink processor类型-1.9.0新版
Flume 总结(八)sink processor类型-1.9.0新版1. sink processorDefault Sink ProcessorFailover Sink Processor使用这个结合agent级联,可以搭建高可用HA agen网络Load balancing Sink ProcessorCustom Sink Processor原创 2020-10-10 23:22:01 · 1026 阅读 · 0 评论 -
Flume 总结(六)selectors类型-1.9.0新版
5. interceptors原创 2020-10-10 23:16:13 · 303 阅读 · 0 评论 -
Flume 总结(五)channels类型-1.9.0新版
Flume 总结(五)channels类型-1.9.0新版1. channelsMemory ChannelJDBC Channel可以通过JDBC对外进行数据缓存Kafka ChannelFile Channel顾名思义,采用文件channel是相对最稳定的,当然,如果有稳定的kafaka集群,稳定性更高,且速度更高。Spillable Memory ChannelPseudo Transaction Channel不用用于生产环境原创 2020-10-10 23:13:50 · 347 阅读 · 0 评论 -
Flume 总结(四)sinks类型-1.9.0新版
Flume 总结(四)sinks类型-1.9.0新版1. sinksHDFS Sink注意,日志数据放到hdfs或者其他地方,一般都是根据时间进行文件管理分类,一般都是天,也有以小时进行存储的当以时间进行存放时,可以时间建立目录,这时候时间可以从日志中取(需要在拦截器中取出时间戳放进event的header中)当以时间进行文件命名或者参与命名时,可以对时间进行的间隔进行设计,例如以小时,则可以设计10小时建立下一个目录由于日志较多,存入hdfs时,可以设计以存入条数,存入文件大小,存原创 2020-10-10 23:05:31 · 475 阅读 · 0 评论 -
Flume 总结(三)sources类型-1.9.0新版
Flume 总结(三)sources类型1. 官网http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html注意区分flume版本2. sourcesavro sources这里可以看出,这里使用的avro通用序列化协议,可以组成agent之间的级联参数最重要就是黑色的, 端口和ip地址注意这里涉及到拦截器和选择器拦截器可以对数据做清洗,筛选,打标记选择器可以根据event的标记,对数据做分发处理原创 2020-10-10 22:28:01 · 310 阅读 · 1 评论 -
Flume 总结(二)flume概念
Flume 总结(二)flume概念1. agent 代理flume作为分布式日志采集框架,需要从各种分布式集群中进行日志文件采集这时候,flume就需要在各个节点上运行一个程序进行数据采集,这个程序就叫做agent。(可以理解flume就是一个抽水机系统,agent就是挂在各个池塘,河流中的一个一个抽水机,agent抽水之后,通过管道将水汇聚到一个地方)flume 采集系统就是由agent互相连接组合起来的,和抽水机一样,agent也可以互相连接起来,组合成一个负载的级联网络,就跟大家在生活遇到原创 2020-10-10 20:38:52 · 255 阅读 · 0 评论 -
Flume 总结(一)flume简介、安装、使用、监控
Flume简介1. flume是什么官网http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#hdfs-sinkFlume 简单结构2. flume解决什么问题在海量数据处理中,日志数据是很重要一类数据如何从集群中将日志文件采集出来,并且考虑各种失败重试等机制是比较复杂的问题,要代码实现也比较消耗精力。这时候各种第三方框架就应运而生。flume作为hadoop母公司cloudera出品的分布式日志采集框原创 2020-10-10 19:49:15 · 193 阅读 · 0 评论 -
Flume 拦截器interceptor和选择器selector演示案例
Flume 拦截器和选择器演示案例(interceptor、selector)1. 背景在大数据处理中,要处理的数据分为结构化,半结构化,非结构化数据。其中日志就是半结构化数据当处理日志文件时,一般先使用flume或者其他方式将日志文件采集出来,一般是从日志系统中采集出来,然后存入到hdfs系统中。当使用flume采集日志时,因为这是最原始的数据,很多时候需要对其进行一定的处理,这时候就需要用到拦截器,拦截器可以对数据做预处理。flume的每一条数据使用Event对象包装起来,event分为he原创 2020-10-09 22:49:10 · 647 阅读 · 0 评论