Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
大数据组件02-华为云鲲鹏服务器Spark2.3移植安装指南
最新推荐文章于 2025-09-23 21:38:21 发布
Apache Spark是一款专为大规模数据处理设计的快速通用计算引擎,它继承了Hadoop MapReduce的优点,通过将Job中间输出结果保存在内存中,避免了频繁的HDFS读写,特别适用于数据挖掘与机器学习等需要迭代的算法。
8万+

被折叠的 条评论
为什么被折叠?



