
spark
小布-01
10年编程经验,乐观向上,爱分享
展开
-
sparkStreaming kafka保证数据不丢失、不重复
sparkStreaming接收kafka数据的方式有两种:1.利用Receiver接收数据;2.直接从kafka读取数据(Direct 方式)保证数据不丢失(1)Receiver方式为确保零数据丢失,必须在Spark Streaming中另外启用预写日志(Write Ahead Logs)。这将同步保存所有收到的Kafka数据到分布式文件系统(例如HDFS)上,以便在发生故障时可以恢复所...原创 2018-12-05 20:27:54 · 7141 阅读 · 0 评论 -
RDD算子操作
1、RDD定义RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。2、RDD的属性1)一组分片(Pa...原创 2018-12-06 19:04:51 · 3289 阅读 · 0 评论 -
Spark Streaming从Kafka中接收数据的两种方式
spark streaming流式处理kafka中的数据,首先是把数据接收过来,然后转换为spark streaming中的数据结构Dstream。接收数据的方式有两种:1.利用Receiver接收数据;2.直接从kafka读取数据。基于Receiver的方式(旧方法)流程:此方法使用Receiver接收数据。Receiver是使用Kafka高阶API接口实现的。与所有接收器一样,从Kafk...原创 2018-12-07 09:34:13 · 4491 阅读 · 3 评论 -
spark的checkpoint机制
引入checkpoint机制原因Spark 在生产环境下经常会面临 Transformation 的 RDD 非常多(例如一个Job 中包含1万个RDD) 或者是具体的 Transformation 产生的 RDD 本身计算特别复杂和耗时(例如计算时常超过1个小时) , 这个时候如果可以对计算的过程进行复用,就可以极大的提升效率,此时我们必需考虑对计算结果的持久化。如果采用 persists ...原创 2018-12-07 09:53:59 · 8038 阅读 · 0 评论 -
spark-submit参数说明
提交spark job时需要传入的参数说明Usage: spark-submit [options] <app jar | python file> [app options]原创 2018-12-07 14:16:45 · 2586 阅读 · 0 评论