
Spark
Mr-Bruce
专注于大数据系统研发
展开
-
再谈Spark下写S3文件的File Output Committer问题
本文回顾了Spark写文件的机制,探讨了AWS EMRFS S3-optimized Committer的工作原理、存在的数据一致性问题以及如何解决。原创 2020-05-03 17:11:38 · 11402 阅读 · 1 评论 -
Spark最佳实践之如何有效分配资源
本文主要探讨如何在AWS EMR下为Spark有效分配资源,从而充分利用一个集群的所有可用资源。原创 2020-03-28 22:39:20 · 22448 阅读 · 0 评论 -
谈Spark下并行执行多个Job的问题
本文结合笔者的实践场景,探讨了Spark下并行执行多个Job的问题。梳理了Spark任务调度的机制,并总结了实践中需要考虑的问题。原创 2019-03-20 19:08:03 · 27456 阅读 · 11 评论 -
聊一聊Spark写文件的机制——如何保证数据一致性
本文结合实践中遇到的问题来分析Spark写文件的机制,探讨其在性能和数据一致性上的权衡,包括什么是Rename机制,诸如S3这种对象存储的特殊性以及当前的优化方案(Consistent View,S3 Multipart Upload)。原创 2019-03-03 13:36:27 · 13886 阅读 · 0 评论 -
详解Spark Streaming的Graceful Shutdown
本文主要探讨Spark Streaming的Graceful Shutdown,重点为三个问题:为什么需要Graceful Shutdown?如何触发Graceful Shutdown?Graceful Shutdown过程是怎样的?原创 2019-01-06 23:22:08 · 12179 阅读 · 0 评论 -
当Spark遇上Zeppelin
本文将会发表在GitChat上面,主要探讨Spark with Zeppelin。Zeppelin是一个基于Web的交互式数据分析工具,里面有很多解释器,透过这些解释器可以利用相应的引擎完成数据分析,Spark便是其中一种。原创 2019-01-13 14:19:09 · 4200 阅读 · 0 评论