
spark
文章平均质量分 74
影夜life
这个作者很懒,什么都没留下…
展开
-
Spark概述
1. Spark架构1. Driver Program在集群模式下,用户编写的Spark程序称为Driver程序。每个Driver程序包含一个代表集群环境的SparkContext对象并与之连接,程序的执行从Driver程序开始,中间过程会调用RDD操作,这些操作通过集群资源管理器来调度执行,一般在Worker节点上执行,所有操作执行结束后回到Driver程序,在Driver程序中结束。2. Spa原创 2016-11-05 18:04:13 · 1277 阅读 · 0 评论 -
Spark入门示例
pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/ma原创 2016-10-30 22:24:49 · 2523 阅读 · 0 评论 -
Hadoop、Spark、Storm相关组件安装
Hadoop2.6.4、zookeeper3.4.6、HBase1.2.2、Hive1.2.1、sqoop1.99.7、spark1.6.2安装原创 2016-09-02 10:46:24 · 4253 阅读 · 0 评论 -
Spark算子使用示例
1. 算子分类从大方向来说,Spark 算子大致可以分为以下两类Transformation:操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Action:会触发 Spark 提交作业(Job),并将数据输出 Spark系统。从小方向来说,Spark 算子大致可以分为以下三类:Value数据类型的T原创 2016-11-05 18:02:21 · 13524 阅读 · 5 评论