
Spark的那些事
文章平均质量分 54
分享 探讨spark相关的那些事。
spark相关的架构 开发 源码和坑。
java coder & spark
小流_跬步
不积跬步,无以至千里不积小流,无以成江海。千里之行,始于足下。技术征程,百折不挠。我思故我在。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark快速入门
Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。此外,Spark 提供了简单易用的 API,几行代码就能实现 WordCount。本教程主要参考官网快速入门教程,介绍了 Spark 的安装,Spark shell 、转载 2017-07-23 19:59:15 · 2466 阅读 · 1 评论 -
Spark的那些事(二)Structured streaming中Foreach sink的用法
Structured streaming默认支持的sink类型有File sink,Foreach sink,Console sink,Memory sink。 特别的说明一下Foreach sink的用法(ps:以通过Foreach sink写入外部redis为例)。 lastEtlData.writeStream().foreach(new TestForeachWriter()).o...原创 2018-03-22 18:07:40 · 3823 阅读 · 1 评论 -
Spark的那些事(四) java操作kudu全示例(含sparksql)
上文提到,使用kudu等列式存储将数据以update模式写入kudu. 下面说一下java操作kudu的相关demo。java操作kudu在git上有相关demo,而spark操作kudu并没有。cloudera官网的操作中只提到了scala版本。本文列举java操作kudu的全示例,仅供入门参考。(痛苦的是sparksql查询kudu的java实现,官方没有示例,google也不好用)1)...原创 2018-03-22 18:10:08 · 2929 阅读 · 0 评论 -
spark的那些事(三) Structured streaming 窗口期内存数据的查询
之前的文章中提过,structured streaming处理流数据,如果使用聚合,将会有window的概念,对应属性watermark.不知你是否了解过druid,druid处理数据同样有窗口期的概念,用于判断数据何时丢弃.超时的数据将被直接丢弃. druid的实现比较完善.不管是窗口期的内存数据还是固化到hdfa中的数据,都可以实时联合查询.而structured streaming目前尚未...原创 2018-03-22 18:09:16 · 1372 阅读 · 0 评论 -
Spark的那些事(一)一文了解spark
Spark是一个快速的集群化的实时计算系统。支持Java, Scala, Python 和R语言的高级API。一 Spark生态: 支持Spark Sql用于sql和结构化数据查询处理;支持MLlib用于机器学习;支持GraphX用于图形处理;支持Spark Streaming和Structured Sql(spark2.1.1版本发布)用于实时计算。(其中,我们使用的Spark功能主要原创 2018-01-15 14:29:08 · 1990 阅读 · 0 评论