
sparkstreaming
javastart
专注于大数据 AI
展开
-
记Structured Streaming 2.3.1的OOM排查过程
记Structured Streaming 2.3.1的OOM排查过程 缘起 最近在使用Structured Streaming开发一套自助配置SQL的来生成流式作业的平台,在测试的过程中发现有些作业长时间运行后会有Executor端的OOM,起初以为是代码的问题,几经review和重构代码,都没有解决,无奈开始了这次OOM的问题排查之路。 干货 出现的问题 Structured Str...转载 2020-01-14 14:25:47 · 394 阅读 · 1 评论 -
Spark2.2(三十八):Spark Structured Streaming2.4之前版本使用agg和dropduplication消耗内存比较多的问题(Memory issue with spa
在spark中《Memory usage of state in Spark Structured Streaming》讲解Spark内存分配情况,以及提到了HDFSBackedStateStoreProvider存储多个版本的影响;从stackoverflow上也可以看到别人遇到了structured streaming中内存问题,同时也对问题做了分析《Memory issue with spa...转载 2020-01-14 10:09:26 · 412 阅读 · 0 评论 -
Spark Streaming 数据产生与导入相关的内存分析
Spark Streaming 数据产生与导入相关的内存分析 字数1430 阅读2128 评论3 喜欢10 前言 我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。 一个大致的数据接受流程一些存储结构的介绍哪些点可能导致内存问题,以及相关的配置参数 另外,有位大牛写了Spark Streaming 源码解析系列,我觉得写转载 2016-10-10 20:25:40 · 386 阅读 · 0 评论 -
Spark Streaming 数据接收优化
Spark Streaming 数据接收优化 字数570 阅读1206 评论1 喜欢5 看这篇文章前,请先移步Spark Streaming 数据产生与导入相关的内存分析, 文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。 这篇内容是个人的一些经验,大家用的时候还是建议好好理解内部的原理,不可照搬 让Receiver均匀的分布到你的Ex转载 2016-10-10 20:26:47 · 1484 阅读 · 0 评论 -
Spark Streaming源码解读之Receiver在Driver详解
Spark Streaming源码解读之Receiver在Driver详解 标签: sparkjavascalahadoop大数据 2016-05-20 13:43 11858人阅读 评论(0) 收藏 举报 分类: Spark Streaming源码详解(15) 版权声明:本文为博主原创文章,未经博主允许不得转载。 一:Recei转载 2017-02-08 11:46:27 · 495 阅读 · 0 评论 -
kafka实现实时收集Spark Steaming任务日志
问题导读: 1、spark streaming任务日志遇到的问题有哪些? 2、spark streaming如何集中收集log? 3、如何配置apache log4j实现日志收集? 用过sparkstreaming的人都知道,当使用sparkstreaming on yarn模式的时候,如果我们想查看系统运行的log,是没法直接看的,就算能看也只是一部分。 这里的l转载 2017-01-25 16:52:31 · 2414 阅读 · 1 评论 -
使用Spark Streaming + Elasticsearch搭建高可用、可扩展的App异常监控平台
问题导读: 1.怎样对iOS的Crash Log进行符号化处理? 2.怎样解决ES的写入瓶颈问题? 3.怎样做到高性能和可扩展? 如果在使用App时遇到闪退,你可能会选择卸载App、到应用商店怒斥开发者等方式来表达不满。但开发者也同样感到头疼,因为崩溃可能意味着用户流失、营收下滑。为了降低崩溃率,进而提升App质量,App开发团队需要实时转载 2017-03-05 20:15:24 · 2152 阅读 · 0 评论 -
[置顶] Spark2.1.0文档:Spark Streaming 编程指南(下)-性能调优和容错语义
目录(?)[+] 性能调优 如果想要群集上的SparkStreaming应用程序中获得最佳性能,你需要进行一些优化操作。本节介绍了一些参数和配置,可以通过调整这些参数和配置以提高应用程序性能。在高层次上,你需要考虑两件事情: 1、通过有效利用集群资源减少每批数据的处理时间。 2、设置正确的batch size,使得每批数据的处理速度可以像接收速度那样快速(即数据处理转载 2017-05-24 19:40:40 · 746 阅读 · 0 评论 -
Spark Streaming场景应用- Spark Streaming计算模型及监控
摘要 Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇文单在《Spark Streaming场景应用-Kafka数据读取方式》基础上,结合我们的应用场景,介结我们在使用Spark Streaming方面的技术架构,并着重讲解Spark Streaming两种计算模型,无状态和状态计算模型以及该两种模转载 2017-08-23 19:51:39 · 598 阅读 · 0 评论