
spark
文章平均质量分 62
简丶致
这个作者很懒,什么都没留下…
展开
-
SparkStreaming状态操作和滑动窗口
SparkStreaming状态操作和滑动窗口 Spark是以采集周期处理数据,可以做到秒级。因此统计的是当前周期的数据汇总,但有些场景我们需要统计累加数据,例如:当天登录人数累加,当天某个广告的点击量累计,按小时统计首次登录人数等。这里我们需要用到以前周期的数据,因此我们需要将周期内的统计结果保存起来,用于下个周期使用。其实,我们自己也可以使用Redis缓存类工具做手动保存。这里SparkStreaming提供了状态维持的方法,便于操作,简单易用。1、UpdateStateByKey原创 2022-02-10 13:15:38 · 2084 阅读 · 0 评论 -
SparkStreaming对接Kafka数据源
SparkStreaming 对接kafka数据源使用SparkStreaming消费kafka中的实时数据,是流式数据处理的常用场景。下面利用对接kafka,实现词频统计。1、封装MyKafkaUtil由于对scala语言不是太熟悉,我这里使用Java语言编写工具类package cn.streaming.kafkaStream;import org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafk原创 2022-02-09 13:00:07 · 1330 阅读 · 1 评论 -
SparkStreaming基本数据源
SparkStreaming基本数据源SparkStreaming的大体流程图SparkStreaming分周期将数据封装在RDD中,底层抽象使用Dstream。本质还是对RDD中数据的处理。SparkStreaming基本数据源案例1. 文件流案例SparkStreaming支持各种文件系统中的文件流,如:HDFS、本地文件系统创建文件流的方式:读取HDFS上面的文件:streamingContext.fileStream[KeyClass, ValueClass,InputFo原创 2022-02-08 16:10:08 · 2007 阅读 · 0 评论