
Spark之路
文章平均质量分 64
congliibm
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍S...原创 2014-12-23 09:16:33 · 156 阅读 · 0 评论 -
Spark开发环境搭建(for Eclipse)
[size=x-large]下载和安装Scala插件[/size] Scala IDE([url]http://scala-ide.org/[/url]);或者在已有的Eclipse IDE里面安装Scala插件,选择插件安装时注意要选Scala worksheet功能,以方便在Eclipse里面直接测试一些代码片段。也要看清楚和对应版本的Eclipse,不然会有问题。 下载后,叫up...原创 2014-12-23 14:20:45 · 276 阅读 · 0 评论 -
第一个Spark程序(编码+Spark-submit提交运行)
[size=xx-large]第一个程序[/size] 将搜狗实验室的日志分析,分析出查询排行榜; 需要先将txt文件传到HDFS上,然后分析; 程序代码: [code="java"] package main.scala import org.apache.spark.{ SparkContext, SparkConf } import org.apache.spark...原创 2014-12-23 15:01:23 · 484 阅读 · 0 评论 -
Spark Standalone 集群部署图文分享
[size=x-large][b]JDK和Scala的安装[/b][/size] 请参阅Hadoop安装文章里的说明:[url]http://congli.iteye.com/blog/2158007[/url] [size=x-large][b]SSH无密码登录[/b][/size] 请参阅Hadoop安装文章里的说明:[url]http://congli.iteye.com/bl...原创 2014-11-19 16:37:11 · 131 阅读 · 0 评论