
Spark
ldcaws
这个作者很懒,什么都没留下…
展开
-
Spark下如何运行Java版本的WordCount
最近研究了下spark,因为scala还不熟,所以先学习了java的spark程序写法,下面是我的简单测试程序的代码,大部分函数的用法已在注释里面注明。这里需要用到一个jar文件:spark-assembly-1.0.0-hadoop1.0.4.jarWordCount代码如下: 手动编译运行过程: 导出类文件生成jar包,这里生成为JavaWordCoun原创 2015-03-15 21:36:32 · 4079 阅读 · 0 评论 -
Spark:Scala实现KMeans算法
1 什么是KMeans算法K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。具体来说,通过输入聚类个数k,以及包含 n个数据对象的数据库,输出满足方差最小标准的k个聚类。2 k-means 算法基本步骤(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2) 根据每个聚类对象的原创 2015-03-25 09:15:35 · 6508 阅读 · 0 评论 -
hadoop1.0.2+spark1.0.2伪分布式安装总结
Ubuntu12.04+hadoop1.0.2+spark1.0.2伪分布式安装总结由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop;并且在Linux系统中安装Spark还需要预先安装JDK,Scala等所需依赖。软件版本:ubunt12.04+JDK1.6+hadoop1.0.2+scala2.9.3+spark1.0.21 Hadoop1原创 2015-03-15 16:24:07 · 855 阅读 · 0 评论 -
Spark:利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。(1) 准备工作在正式介绍之前,先要以下软硬件准备:软件准备:Eclipse Juno版本(4.2版本),可以直转载 2015-03-19 18:46:45 · 651 阅读 · 0 评论 -
Apache Spark:将Apache Spark部署到Hadoop 2.2.0上
本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。需要注意两点:(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能原创 2015-03-18 17:00:35 · 960 阅读 · 0 评论