Spark
Spark
冰诺莫语
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark性能优化指南——高级篇
继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个ta转载 2020-09-23 09:36:57 · 415 阅读 · 0 评论 -
Spark性能优化指南——基础篇
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的转载 2020-09-23 09:32:45 · 200 阅读 · 0 评论 -
Spark Graphx计算有向环
在工作过程中有使用到Spark Graphx做一些图的计算,开发环境如下:开发工具:IDEAJDK:1.7.0_80Maven:3.3.9对于图计算,其实可以有很多技术框架等,例如使用python的networx,spark的graphx,以及阿里也有开源框架,此处我们使用Graphx为计算框架,由于个人简单案例,就以单机环境实现,并且简单数据输入。在Graphx中,通常类似的操作可...原创 2019-12-15 15:07:27 · 902 阅读 · 0 评论
分享