
大数据
文章平均质量分 90
xyccstudio
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Kafka拉取某一个时间段內的消息
一般来说我们都使用Kafka来记录用户的操作记录以便后续分析。但是通常使用的时候需要按天来统计每天的去重用户数、点击量之类的。这个时候如果直接拉某个topic的数据的话,就需要判断每个消息的时间戳,还要兼顾把所有的Partition都拉完才能保证数据的完整。因此如果能只拉取某一个时间段内的消息,就能极大的简化后续的处理逻辑。拉取时段内消息实现为了实现这个目的借助于根据时间戳获取Partition内部偏移的方法,然后逐个拉取所有的Partition的消息。实验例子,python+confluenc原创 2020-09-01 11:23:33 · 5520 阅读 · 0 评论 -
Spark Streaming 接入 kafka 之 sasl配置
被kafka的新版配置折磨的死去活来的,终于搞定了。。。放松一下写此篇博客以记录一下。开发环境spark 2.2.0scala 2.11.8 (目前为止,高版本的scala貌似对kafka的支持还有坑。。。) sbt(目前为止,顺便说一下,如果是mac 10.13 之后的系统,并且使用 IntelliJ IDEA的话,sbt的版本要选择 1.0.3左右的,选择1.1.0之后那又是会爽...原创 2018-03-28 14:56:42 · 3762 阅读 · 2 评论