
流全栈处理
文章平均质量分 71
holomain
足够明亮,做够善良
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Structed Streaming 小案例
1 首先是官网:http://spark.apache.org/docs/latest/structured-streaming-programming-guide.ht注意官方文档中的着重表示的地方例如(黑体加重,斜体等) 我们都知道spark streaming 是基于spark core API 那Structed Streaming基于的是什么? 没错就是Spark...原创 2018-06-18 14:46:37 · 2687 阅读 · 0 评论 -
windows 本地测试spark streaming + kafka direct api
windows 本地测试spark streaming + kafka direct api 卡在如下信息出: “Kafka scala consumer marked as dead for group”1.环境:kafka server为集群,连接时使用的是hostname:9092方法去连接,程序也不报错, 就是卡在上面的信息出,没有输出。 2.之前已经在集群上使用shell...原创 2018-07-20 11:38:49 · 506 阅读 · 0 评论 -
大数据实时流处理零数据丢失
大数据实时流处理零数据丢失1.整体流程: a)kafka:作为流处理程序的生产者 b)sparkStreaming:作为消费者,设置合理batch c)DB:输出到redis/ES2.存在问题:雪崩效应: kill 出现,导致的数据丢失sparkStreaming程序挂掉了,到知道的数据丢失解决: 1.使用checkpoint。维护太麻烦,流程...原创 2018-08-10 17:49:05 · 1770 阅读 · 0 评论 -
Alluxio 部分阅读
现有的streaming architecture 的bottleneck是:1.hdfs 存储系统位于远端的服务器:文件的输入输出会引起大量的网络延迟,数据的更改编程流处理的一个bottleneck。2.HDFS使用普通的磁盘,因此IO操作,尤其是读操作有很高的延迟,spark streaming的executor需要重复的跨集群读操作从HDFS,进一步降低了整体的性能。3.当spar...翻译 2018-09-03 17:20:46 · 461 阅读 · 0 评论 -
kafka 顺序消费, spark streaming exactly-once以及零丢失的一些总结
Kafka:定义: 消息中间件 –>分布式流式平台生产者 sourceBroker channel消费者 sink 正常部署的是: Broker进程(一个机器一个(分布式),一个机器多个(伪分布式))使用场景:Flume-->Kafka-->Spark streaming 实时流式Kafka Streaming特点:发布/订阅实时...原创 2018-09-16 00:15:07 · 1724 阅读 · 0 评论 -
spark on Alluxio 的使用
http://www.alluxio.org/docs/1.8/en/Running-Spark-on-Alluxio.htmlAlluxio 解决的问题:现有的streaming architecture 的bottleneck是:1.hdfs 存储系统位于远端的服务器:文件的输入输出会引起大量的网络延迟,数据的更改编程流处理的一个bottleneck。2.HDFS使用普通的磁盘,因...原创 2018-10-12 17:55:44 · 1328 阅读 · 0 评论