
开发优化
A™A_Forever
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
开发优化01 之 spark中 filter之后 执行coalesce
开发优化01 之 spark中 filter之后 执行coalesce coalesce合并(窄依赖算子)。。也就是当一个rdd在执行filter之后,进行合并分区。也就是说比如原先分区有100个,经过filter之后又30%被过滤掉了,平均每个partition的数据量就比原来少了30%,那么partition不饱和,此时为了提交计算的效率,我们可以执行coalesce算子合并,将其中多个par...原创 2019-06-21 20:44:59 · 486 阅读 · 0 评论 -
开发优化 之二 序列化的优化 Kryo, Serializable、Externalizable接口
加粗样式 序列化的介绍 在任何一个分布式系统中,序列化都是扮演着一个重要的角色的。如果使用的序列化技术,在执行序列化操作的时候很慢,或者是序列化后的数据还是很大,那么会让分布式应用程序的性能下降很多。所以,进行Spark性能优化的第一步,就是进行序列化的性能优化。 Spark自身默认就会在一些地方对数据进行序列化,比如Shuffle。还有就是,如果我们的算子函数使用到了外部的数据(比如Java内...原创 2019-06-21 21:08:14 · 726 阅读 · 0 评论