
spark学习
一只懒虫^-^
这个作者很懒,什么都没留下…
展开
-
hadoop-2.2.0+spark1.1.0安装过程
hadoop-2.2.0+spark1.1.0安装过程首先介绍一下整个过程中需要用到的一些软件虚拟机vmwareworkstation 10Linux版本 CentOS 6.4Jdk jdk-7u21-linux-i586.tar.gz终端SecureCRTHadoop2.2.0Spark1.1.0scala2.10.4 本人是采用在32位的windowns原创 2014-07-14 14:28:10 · 7255 阅读 · 1 评论 -
什么是spark
Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。原创 2014-07-17 15:23:33 · 1138 阅读 · 0 评论 -
IDEA安装以及打包过程
(前提已经安装jdk配置好环境变量,还有已安装好scala。同时需要spark-assembly-1.0.0-hadoop2.2.0.jar包,该jar包在spark/lib目录下)官网下载13.1.3 ultimate版本 http://www.jetbrains.com/idea/download/企业版本试用期为30天,可以去网上搜注册机。这边提供一个name和key原创 2014-07-17 14:44:10 · 6274 阅读 · 0 评论 -
浅谈对于RDD的认识
浅谈对于RDD的认识RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依原创 2014-07-23 09:01:44 · 7819 阅读 · 1 评论 -
基于Spark on Yarn的淘宝数据挖掘平台
pdf转载 2014-07-27 08:49:43 · 2574 阅读 · 0 评论 -
spark上安装mysql与hive
spark上安装mysql与hive原创 2014-08-07 20:13:55 · 7813 阅读 · 0 评论 -
spark应用程序的运行架构
spark应用程序运行架构介绍原创 2014-08-13 15:25:26 · 10283 阅读 · 1 评论