
Spark Scala Streaming系列
贾红平
本人喜欢技术,一致从事于大数据搜索推荐系统架构及其相关工作,最近几年开始熟悉人工智能和机器学习领域,擅长高可用高并发系统架构设计..技术的追求从没有停止过..
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark streaming - scala统计hdfs
本文章主要通过spark streaming实现hdfs文件的统计import org.apache.spark.SparkConf import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seconds /** * @author jhp * spark st...原创 2018-04-17 09:56:59 · 412 阅读 · 0 评论 -
spark streaming scala-统计热门产品
本文主要通过spark streaming实现top的热门产品统计import org.apache.spark.SparkConf import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seconds import org.apache.spark.sql.Row import o...原创 2018-04-17 09:56:45 · 346 阅读 · 0 评论 -
spark streaming scala 过滤黑名单
本文章主要通过spark streaming实时过滤黑名单import org.apache.spark.SparkConf import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seconds /** * @author jhp * spark stream...原创 2018-04-17 09:56:40 · 499 阅读 · 0 评论 -
spark streaming scala-updateStateByKey 进行key的累加统计
updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加 在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步: 1) 定义状态:可以是任意数据类型 2) 定义状态更新函数:用一个函数指定如何使用先前的状态,从输入流中的新值更新状态。 对于有状态操作,要不断的把当前和历史的时间切片的RDD累加计算,...原创 2018-04-17 09:56:33 · 579 阅读 · 0 评论