
flume
yangbosos
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flume占CPU资源高问题
原文地址:https://www.jianshu.com/p/0b8c59a1b58b 问题描述 Flume多个配置合并后,发现占用cpu很高,利用top有30-50%的使用率,某几台机器60-100%,有时候还会挂起,挂起的时候,有个专门记录读取文件位置的json文件,都是0,似乎是因为某些原因卡住了。初步猜测是多线程问题引起的,但是没有挂起的时候正常采集的情况占用cpu也很高 ...转载 2019-04-02 09:22:17 · 1325 阅读 · 0 评论 -
Flume的监控(Monitor)
使用Flume实时收集日志的过程中,尽管有事务机制保证数据不丢失,但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常,比如,SouceàChannel传输了多少消息,ChannelàSink又传输了多少,两处的消息量是否偏差过大等等。 Flume为我们提供了Monitor的机制:http://flume.apache.org/FlumeUserGuide.html#m...转载 2019-04-08 08:17:44 · 604 阅读 · 0 评论 -
flume:三个内置基本组件:channel、source、sink
一、概念 Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on stre...转载 2019-04-08 11:12:05 · 1985 阅读 · 0 评论 -
实时流计算、实时去重、Spark Streaming、Kafka、Redis、Exactly-once
在实时流式计算中,最重要的是在任何情况下,消息不重复、不丢失,即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为例,一方面说明一下如何做到Exactly-once,另一方面说明一下我是如何计算实时去重指标的。 1. 关于数据源 数据源是文本格式的日志,由Nginx产生,存放于日志服务器上。在日志服务器上部署Flume Agent,使用...转载 2019-04-09 09:10:23 · 844 阅读 · 0 评论 -
Flume实战采集文件内容存入HDFS
1、flume安装目录下新建文件夹 example 2、在example下新建文件 log-hdfs.conf 内容如下: # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 #exec 指的是命令 # Describe/configure the source a1....转载 2019-04-24 18:37:57 · 748 阅读 · 0 评论 -
Flume的监控(Monitor)
使用Flume实时收集日志的过程中,尽管有事务机制保证数据不丢失,但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常,比如,SouceàChannel传输了多少消息,ChannelàSink又传输了多少,两处的消息量是否偏差过大等等。 Flume为我们提供了Monitor的机制:http://flume.apache.org/FlumeUserGuide.html#m...转载 2019-04-20 11:39:20 · 225 阅读 · 0 评论