
flume
mnasd
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
flume读取日志数据写入kafka 然后kafka+storm整合
一、flume配置flume要求1.6以上版本flume-conf.properties文件配置内容,sinks的输出作为kafka的product[html] view plain copya1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type ...转载 2018-06-14 08:43:12 · 508 阅读 · 0 评论 -
Flume中的拦截器(Interceptor)介绍与使用(一)
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.6中目前提供了以下拦截器: Timestamp Interceptor; Host Interceptor; Static Intercept...转载 2018-08-30 11:36:31 · 705 阅读 · 0 评论 -
Flume中的HDFS Sink配置参数说明
Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。 channel type hdfs path 写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/ 可以使用flume提供的日期及%{host}表达式。 filePrefix 默认值:FlumeData 写入hdfs的文件名前缀,可以使...转载 2018-08-30 11:17:21 · 222 阅读 · 0 评论 -
Flume中的TaildirSource
在通过Flume收集日志的业务场景中,一般都会遇到下面的情况,在日志收集服务器的某个目录下,会按照一段时间生成一个日志文件,并且日志会不断的追加到这个文件中,比如,每小时一个命名规则为log_20151015_10.log的日志文件,所有10点产生的日志都会追加到这个文件中,到了11点,就会生成另一个log_20151015_11.log的文件。 这种场景如果通过flume(1.6)收集,当前提...转载 2018-08-30 11:06:47 · 429 阅读 · 0 评论 -
Flume NG 学习笔记(四)Source配置
一、Avro Source与Thrift Source Avro端口监听并接收来自外部的Avro客户流的事件。当内置Avro 去Sinks另一个配对Flume代理,它就可以创建分层采集的拓扑结构。官网说的比较绕,当然我的翻译也很弱,其实就是flume可以多级代理,然后代理与代理之间用Avro去连接 下面是官网给出的source的配置,加粗的参数是必选,描述就不解释了。 Propert...转载 2018-08-21 11:56:07 · 877 阅读 · 0 评论 -
Flume学习之路 (二)Flume的Source类型
目录 一、概述 二、Flume Sources 描述 2.1 Avro Source 2.2 Thrift Source 2.3 Exec Source 2.4 JMS Source 2.5 Spooling Directory Source 2.6 其他 正文 回到顶部 一、概述 官方文档介绍:http://flume.apache.org/FlumeU...转载 2018-08-21 11:46:35 · 1036 阅读 · 0 评论 -
Flume学习之路 (一)Flume的基础介绍
目录 一、背景 二、Flume的简介 三、Flume NG的介绍 3.1 Flume特点 3.2 Flume的一些核心概念 3.3 Flume NG的体系结构 3.4 Source 3.5 Channel 3.6 Sink 四、Flume的部署类型 4.1 单一流程 4.2 多代理流程(多个agent顺序连接) 4.3 流的合并(多个Agent的数据汇聚...转载 2018-08-21 11:39:18 · 269 阅读 · 0 评论 -
利用Flume 汇入数据到HBase:Flume-hbase-sink 使用方法详解
导读:作者在上一篇文章中:https://cloud.tencent.com/developer/article/1025430《Flume-Hbase-Sink针对不同版本flume与HBase的适配研究与经验总结》,详细描述了两大类HBaseSinks:org.apache.flume.sink.hbase.HBaseSink(简称HBaseSink),以及org.apache.flume.s...转载 2018-08-20 22:25:12 · 9696 阅读 · 1 评论 -
Flume中同时使用Kafka Source和Kafka Sink的Topic覆盖问题
如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖问题,具体表现为,Kafka Source可以正常从指定的Topic中读取数据,但在Kafka Sink中配置的目标Topic不起作用,数据仍然会被写入到Source中指定的Topic中。 比如:在Agent中的Kafka Source配置Topic为: ...转载 2018-08-30 16:12:55 · 322 阅读 · 0 评论 -
Flume使用Kafka Sink导致CPU过高的问题
在日志收集服务器上使用Flume(1.6)的Kafka Sink将日志数据发送至Kafka,在Flume Agent启动之后,发现每个Agent的CPU使用率都非常高,而我们需要在每台机器上启动多个Flume Agent来收集不同类型的日志,如果每个Agent都这样,那肯定会把机器的CPU吃满了,刚开始使用jstack定位到是org.apache.flume.sink.kafka.process(...转载 2018-08-30 16:12:06 · 867 阅读 · 0 评论 -
利用Flume拦截器(interceptors)实现Kafka Sink的自定义规则多分区写入
我们目前的业务场景如下:前端的5台日志收集服务器产生网站日志,使用Flume实时收集日志,并将日志发送至Kafka,然后Kafka中的日志一方面可以导入到HDFS,另一方面供实时计算模块使用。 前面的文章《Kafka分区机制介绍与示例》介绍过Kafka的分区机制。我们对Kafka中存储日志的Topic指定了多个分区,默认情况下,Kafka Sink在收到events之后,将会随机选择一个该Top...转载 2018-08-30 16:11:18 · 512 阅读 · 0 评论 -
Flume的监控(Monitor)
使用Flume实时收集日志的过程中,尽管有事务机制保证数据不丢失,但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常,比如,SouceàChannel传输了多少消息,ChannelàSink又传输了多少,两处的消息量是否偏差过大等等。 Flume为我们提供了Monitor的机制:http://flume.apache.org/FlumeUserGuide.html#m...转载 2018-08-22 17:10:27 · 7132 阅读 · 0 评论 -
Flume学习之路 (三)Flume的配置方式
目录 一、单一代理流配置 1.1 官网介绍 1.2 测试示例(一) 1.3 测试案例(二) 二、单代理多流配置 2.1 官方案例 三、配置多代理流程 3.1 官方案例 3.2 测试案例 四、多路复用流 4.1 官方案例 4.2 测试案例(一)复制 4.3 测试案例(二)复用 正文 回到顶部 一、单一代理流配置 1.1 官网介绍 ...转载 2018-08-22 16:33:50 · 235 阅读 · 0 评论 -
flume将数据导入到hbase中
安装flume: 压缩包下载地址:点击打开链接 [hadoop@h71 ~]$ tar -zxvf flume-ng-1.6.0-cdh5.5.2.tar.gz 修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置 [hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ cp conf/flume-env.sh.template con...转载 2018-08-19 17:13:34 · 1336 阅读 · 0 评论 -
flume简单测试hdfssink && hivesink
quich start vi example.conf # example.conf: A single-node Flume configuration # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1...转载 2018-08-19 16:09:54 · 517 阅读 · 0 评论 -
flume的sink写入hive表
flume的sink写入hive表 flume的配置文件如下: a1.sources=r1 a1.channels=c1 a1.sinks=s1 a1.sources.r1.type=netcat a1.sources.r1.bind=master a1.sources.r1.port=44444 a1.sinks.s1.type=hive a1.sinks.s1.hive.meta...原创 2018-08-19 16:01:52 · 3637 阅读 · 1 评论 -
记flume部署过程中遇到的问题以及解决方法(持续更新
项目需求是将线上服务器生成的日志信息实时导入kafka,采用agent和collector分层传输,app的数据通过thrift传给agent,agent通过avro sink将数据发给collector,collector将数据汇集后,发送给kafka,拓扑结构如下:现将调试过程中遇到的问题以及解决方法记录如下:1、 [ERROR - org.apache.thrift.server.Abstr...转载 2018-06-14 08:45:32 · 4170 阅读 · 0 评论 -
Flume中的拦截器(Interceptor)介绍与使用(二)
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.6中目前提供了以下拦截器: Timestamp Interceptor; Host Interceptor; Static Intercept...转载 2018-08-30 16:05:42 · 414 阅读 · 0 评论