
flume
文章平均质量分 66
大模型大数据攻城狮
在阿里巴巴等多种类型公司工作过,第一份工作是在大厂做移动开发,后来在创业公司由于团队需要做后台开发、嵌入式开发等几乎全栈开发,最近这些年还保持必要全栈开发,精力更多在大数据、大模型等领域。
展开
-
Flume pollDelay设置不正确停止采集
使用FusionInsight HD Flume从本地采集静态日志( Spooling Source )保存到Kafka,由于采集堆积太多了,flume配置参数做了一些修改。后来发现一个诡异问题:每次重启flume采集,只采集1、2个文件就停止采集了,也没报什么错误。采用对比法排查问题,对比正常运行的flume配置,看到pollDelay跟之前的不同。才想起之前一顿三百五的操作:想加快速度。pollDelay的设置值从5000改成500。采集方案采用的Spooling Source + Memory原创 2021-06-13 15:06:56 · 430 阅读 · 0 评论 -
SparkStreaming Direct方式读取kafka优缺点及示例(Redis保存offset)
在Spark1.3之后,引入了Direct方式。不同于Receiver的方式,Direct方式没有Receiver这一层,其会周期性地获取Kafka中每个topic(主题)的每个partition(分区)中的最新offsets(偏移量),之后根据设定的maxRatePerPartition来处理每个batch。其形式如下图所示。这种方法相较于Receiver方式的优势在于:● 简化的并行。Direct方式中,Kafka中的partition与Spark内部的partition是一一对应的,这点使原创 2021-03-07 16:37:32 · 412 阅读 · 0 评论