spark

最新推荐文章于 2025-09-06 21:58:22 发布

转载最新推荐文章于 2025-09-06 21:58:22 发布 · 55 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/jswang/p/9008144.html

文章标签：

#大数据 #java

本文介绍了Spark的基本概念，包括其支持的语言（如Scala、Python和Java），并对比了Spark与MapReduce的性能差异。此外还详细解释了Spark的核心组件——弹性分布式数据集（RDD）及其主要特性。文中还提供了如何使用Spark Context API进行数据加载与处理的例子。

spark支持语言： scala、paython、java 1:2:4

　　使用spark sql（中间的过滤、筛选）三种性能一样。

spark 比 mapReduce快

　　cpu与内存比为1:2，或者1:4

RDD：弹性数据分布集 5个特性对RDD测操作：1、transformation 2、Action

spark.sparkContext

API:

　　1:sc.textFile(""),从外部加载数据，返回的的是RDD类型 sc.textFile("").cache.count 备注：只有调用count时，才可以显示。

　　sc.textFile("").collect

转载于:https://www.cnblogs.com/jswang/p/9008144.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。