spark
文章平均质量分 68
u013392077
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第三章 RDD编程
val lines=sc.textFile("/path/readme.md") 3.1 RDD基础 RDD——弹性分布式数据集。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含python、java、scala中任意类型的对象,甚至可以包含用户自定义的对象。 用户可以通过两种方式创建RDD:读取外部数据集和通过对象集合创建。 创建后的RDD支持两类操作:转化操原创 2017-12-13 19:34:02 · 444 阅读 · 0 评论 -
第一章 spark数据分析导论
1.1 spark是什么 spark是一个用来实现快速而通用的集群计算的平台。 spark比mapreduce更加高效,适用于各种原先需要多种不同分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。 1.2 一个大一统的软件栈 spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。原创 2017-12-13 18:12:44 · 370 阅读 · 0 评论
分享