spark杂记:Execution plans, Lazy Evaluation, and caching

这篇博客探讨了Spark中的执行计划、延迟评估和缓存策略。通过计算平方和的任务展示了延迟评估如何避免存储中间结果并减少内存访问。实验表明,通过延迟执行,可以减少计算时间,但多次使用相同的执行计划可能导致重复计算。缓存中间结果可以提高效率,但会增加内存需求。文章还强调了分区和负载均衡在Spark中的重要性。

Spark 学习笔记可以follow这里:https://github.com/MachineLP/Spark-

Task: calculate the sum of squares :

The standard (or busy) way to do this is

  1. Calculate the square of each element.
  2. Sum the squares.

This requires storing all intermediate results.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MachineLP

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值