SparkStreaming
文章平均质量分 63
董可伦
博主曾获2014年全国数学建模竞赛国家一等奖;有八年大数据经验,大数据领域专家、优快云博客专家。Apache Hudi Active Contributor,喜欢开源,擅长并乐于分享Flink、Hudi、Spark等大数据领域的技术
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkStreaming+Kafka 实现基于缓存的实时wordcount程序
转载请务必注明原创地址为:https://dongkelun.com/2018/06/14/updateStateBykeyWordCount/前言本文利用SparkStreaming和Kafka实现基于缓存的实时wordcount程序,什么意思呢,因为一般的SparkStreaming的wordcount程序比如官网上的,只能统计最新时间间隔内的每个单词的数量,而不能将历史的累加起来,本...原创 2018-06-25 09:44:58 · 1910 阅读 · 1 评论 -
spark-submit提交Spark Streamming+Kafka程序
转载请务必注明原创地址为:https://dongkelun.com/2018/06/19/sparkSubmitKafka/前言Spark Streaming本身是没有Kafka相关的jar包和API的,如果想利用Spark Streaming获取Kafka里的数据,需要自己将依赖添加SBT或Maven项目中,添加依赖更新项目之后,就可以在Eclipse等IDE里直接运行Spark St...原创 2018-06-28 17:09:31 · 3361 阅读 · 0 评论 -
Spark Streamming+Kafka提交offset实现有且仅有一次
本文讲Spark Streamming使用Direct方式读取Kafka,并在输出(存储)操作之后提交offset到Kafka里实现程序读写操作有且仅有一次,即程序重启之后之前消费并且输出过的数据不再重复消费,接着上次消费的位置继续消费Kafka里的数据。...原创 2018-07-06 16:41:05 · 7431 阅读 · 0 评论 -
SparkStreaming+Kafka 实现统计基于缓存的实时uv
转载请务必注明原创地址为:https://dongkelun.com/2018/06/25/KafkaUV/前言本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看起来要对用户去重,其实只要按照WordCount的思路,最后输出key的数量即可,所以可以利用SparkStreaming+Kafka 实现基于缓存的实时wordc...原创 2018-07-06 16:45:20 · 4626 阅读 · 1 评论
分享