java.spark
awj321000
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark算子使用示例
1. 算子分类 从大方向来说,Spark 算子大致可以分为以下两类 Transformation:操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Action:会触发 Spark 提交作业(Job),并将数据输出 Spark系统。 从小方向来说,Spark 算子大致可以分为以下三类:转载 2017-08-29 15:18:39 · 441 阅读 · 0 评论 -
Spark Streaming
Spark Streaming基于Spark处理流式数据的框架,在MapReduce中,由于其分布式特性——所有数据需要读写磁盘、启动job耗时较大,难以满足时效性要求。而Streaming能够在Spark上生根发芽的原因是因为其内存特性、低延时的执行引擎和高速的执行效率。 Streaming的原理是将Stream数据分成小的时间间隔(比如几秒),即将其离散化(Discretized)并转换成一转载 2017-07-13 11:13:02 · 410 阅读 · 0 评论 -
Spark-Spark Streaming例子整理(一)
aaa转载 2017-07-03 17:06:37 · 5599 阅读 · 0 评论 -
Kafka 配置说明
配置文件在config/server.properties 下面的一些配置可能是你需要进行修改的。 broker.id 整数,建议根据ip区分 log.dirs kafka存放消息文件的路径, 默认/tmp/kafka-logs port broker用于接收produ转载 2017-07-11 14:49:35 · 450 阅读 · 0 评论
分享