感谢原文作者:https://michalsenkyr.github.io/2018/01/spark-performance
Spark作业的开发在表面上看起来很容易,而且大部分都是如此。提供的 API设计精良且功能丰富,如果您熟悉Scala集合或Java流,您将立即完成实施。实际上,当在集群上运行它们并且满负载时,硬件部分实际上是因为并非所有作业在性能方面都是相同的。不幸的是,要以最佳方式实现您的工作,您必须了解Spark及其内部结构。
在本文中,我将讨论在开发Spark应用程序时可能遇到的最常见的性能问题以及如何避免或减轻它们。
1.Transformations
使用RDD API时,最常见的性能问题是使用不适合特定用例的转换。这可能源于许多用户对SQL查询语言的熟悉以及他们对