
flume
mnasd
这个作者很懒,什么都没留下…
展开
-
flume读取日志数据写入kafka 然后kafka+storm整合
一、flume配置flume要求1.6以上版本flume-conf.properties文件配置内容,sinks的输出作为kafka的product[html] view plain copya1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type ...转载 2018-06-14 08:43:12 · 482 阅读 · 0 评论 -
Flume中的拦截器(Interceptor)介绍与使用(一)
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.6中目前提供了以下拦截器:Timestamp Interceptor;Host Interceptor;Static Intercept...转载 2018-08-30 11:36:31 · 690 阅读 · 0 评论 -
Flume中的HDFS Sink配置参数说明
Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。channel typehdfspath写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。filePrefix默认值:FlumeData写入hdfs的文件名前缀,可以使...转载 2018-08-30 11:17:21 · 207 阅读 · 0 评论 -
Flume中的TaildirSource
在通过Flume收集日志的业务场景中,一般都会遇到下面的情况,在日志收集服务器的某个目录下,会按照一段时间生成一个日志文件,并且日志会不断的追加到这个文件中,比如,每小时一个命名规则为log_20151015_10.log的日志文件,所有10点产生的日志都会追加到这个文件中,到了11点,就会生成另一个log_20151015_11.log的文件。这种场景如果通过flume(1.6)收集,当前提...转载 2018-08-30 11:06:47 · 414 阅读 · 0 评论 -
Flume NG 学习笔记(四)Source配置
一、Avro Source与Thrift SourceAvro端口监听并接收来自外部的Avro客户流的事件。当内置Avro 去Sinks另一个配对Flume代理,它就可以创建分层采集的拓扑结构。官网说的比较绕,当然我的翻译也很弱,其实就是flume可以多级代理,然后代理与代理之间用Avro去连接下面是官网给出的source的配置,加粗的参数是必选,描述就不解释了。 Propert...转载 2018-08-21 11:56:07 · 848 阅读 · 0 评论 -
Flume学习之路 (二)Flume的Source类型
目录一、概述 二、Flume Sources 描述 2.1 Avro Source 2.2 Thrift Source 2.3 Exec Source 2.4 JMS Source 2.5 Spooling Directory Source 2.6 其他 正文回到顶部一、概述官方文档介绍:http://flume.apache.org/FlumeU...转载 2018-08-21 11:46:35 · 1019 阅读 · 0 评论 -
Flume学习之路 (一)Flume的基础介绍
目录一、背景 二、Flume的简介 三、Flume NG的介绍 3.1 Flume特点 3.2 Flume的一些核心概念 3.3 Flume NG的体系结构 3.4 Source 3.5 Channel 3.6 Sink 四、Flume的部署类型 4.1 单一流程 4.2 多代理流程(多个agent顺序连接) 4.3 流的合并(多个Agent的数据汇聚...转载 2018-08-21 11:39:18 · 254 阅读 · 0 评论 -
利用Flume 汇入数据到HBase:Flume-hbase-sink 使用方法详解
导读:作者在上一篇文章中:https://cloud.tencent.com/developer/article/1025430《Flume-Hbase-Sink针对不同版本flume与HBase的适配研究与经验总结》,详细描述了两大类HBaseSinks:org.apache.flume.sink.hbase.HBaseSink(简称HBaseSink),以及org.apache.flume.s...转载 2018-08-20 22:25:12 · 9637 阅读 · 1 评论 -
Flume中同时使用Kafka Source和Kafka Sink的Topic覆盖问题
如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖问题,具体表现为,Kafka Source可以正常从指定的Topic中读取数据,但在Kafka Sink中配置的目标Topic不起作用,数据仍然会被写入到Source中指定的Topic中。比如:在Agent中的Kafka Source配置Topic为:...转载 2018-08-30 16:12:55 · 309 阅读 · 0 评论 -
Flume使用Kafka Sink导致CPU过高的问题
在日志收集服务器上使用Flume(1.6)的Kafka Sink将日志数据发送至Kafka,在Flume Agent启动之后,发现每个Agent的CPU使用率都非常高,而我们需要在每台机器上启动多个Flume Agent来收集不同类型的日志,如果每个Agent都这样,那肯定会把机器的CPU吃满了,刚开始使用jstack定位到是org.apache.flume.sink.kafka.process(...转载 2018-08-30 16:12:06 · 848 阅读 · 0 评论 -
利用Flume拦截器(interceptors)实现Kafka Sink的自定义规则多分区写入
我们目前的业务场景如下:前端的5台日志收集服务器产生网站日志,使用Flume实时收集日志,并将日志发送至Kafka,然后Kafka中的日志一方面可以导入到HDFS,另一方面供实时计算模块使用。前面的文章《Kafka分区机制介绍与示例》介绍过Kafka的分区机制。我们对Kafka中存储日志的Topic指定了多个分区,默认情况下,Kafka Sink在收到events之后,将会随机选择一个该Top...转载 2018-08-30 16:11:18 · 490 阅读 · 0 评论 -
Flume的监控(Monitor)
使用Flume实时收集日志的过程中,尽管有事务机制保证数据不丢失,但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常,比如,SouceàChannel传输了多少消息,ChannelàSink又传输了多少,两处的消息量是否偏差过大等等。Flume为我们提供了Monitor的机制:http://flume.apache.org/FlumeUserGuide.html#m...转载 2018-08-22 17:10:27 · 7105 阅读 · 0 评论 -
Flume学习之路 (三)Flume的配置方式
目录一、单一代理流配置 1.1 官网介绍 1.2 测试示例(一) 1.3 测试案例(二) 二、单代理多流配置 2.1 官方案例 三、配置多代理流程 3.1 官方案例 3.2 测试案例 四、多路复用流 4.1 官方案例 4.2 测试案例(一)复制 4.3 测试案例(二)复用 正文回到顶部一、单一代理流配置1.1 官网介绍...转载 2018-08-22 16:33:50 · 219 阅读 · 0 评论 -
flume将数据导入到hbase中
安装flume:压缩包下载地址:点击打开链接[hadoop@h71 ~]$ tar -zxvf flume-ng-1.6.0-cdh5.5.2.tar.gz修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ cp conf/flume-env.sh.template con...转载 2018-08-19 17:13:34 · 1316 阅读 · 0 评论 -
flume简单测试hdfssink && hivesink
quich startvi example.conf# example.conf: A single-node Flume configuration# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1...转载 2018-08-19 16:09:54 · 510 阅读 · 0 评论 -
flume的sink写入hive表
flume的sink写入hive表flume的配置文件如下:a1.sources=r1a1.channels=c1a1.sinks=s1a1.sources.r1.type=netcata1.sources.r1.bind=mastera1.sources.r1.port=44444a1.sinks.s1.type=hivea1.sinks.s1.hive.meta...原创 2018-08-19 16:01:52 · 3623 阅读 · 1 评论 -
记flume部署过程中遇到的问题以及解决方法(持续更新
项目需求是将线上服务器生成的日志信息实时导入kafka,采用agent和collector分层传输,app的数据通过thrift传给agent,agent通过avro sink将数据发给collector,collector将数据汇集后,发送给kafka,拓扑结构如下:现将调试过程中遇到的问题以及解决方法记录如下:1、 [ERROR - org.apache.thrift.server.Abstr...转载 2018-06-14 08:45:32 · 4152 阅读 · 0 评论 -
Flume中的拦截器(Interceptor)介绍与使用(二)
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.6中目前提供了以下拦截器:Timestamp Interceptor;Host Interceptor;Static Intercept...转载 2018-08-30 16:05:42 · 394 阅读 · 0 评论