spark
文章平均质量分 91
Knuth1989
本人有3年大数据课程、Java课程授课经验
3年的java web 开发经验
1年的项目管理经验
2年的大数据开发经验
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark2.1.0集群安装
1. 安装Spark之前需要安装Java环境和Hadoop环境和Scala环境。 需要准备三台虚拟机 192.168.230.31 vm1 192.168.230.32 vm2 192.168.230.32 vm3 2. 安装Spark依赖的Scala,因为Spark依赖scala,所以在安装Spark之前,这里要先安装scala。 在每个节点上都进行安装。 a)下载和解压缩Scala,打开地址:http://www.scala-lang.org/ 直接打开下...原创 2021-12-07 21:15:49 · 524 阅读 · 0 评论 -
spark RDD的map和flatmap
map 输入一条,输出一条 将原来 RDD 的每个数据项通过 map 中的用户自定义函数映射转变为一个新的 元素。输入一条输出一条; flatMap 输入一条输出多条 先进行map后进行flat 图解: ps:图片来自 http://www.cnbl原创 2017-07-06 12:27:00 · 494 阅读 · 0 评论 -
Spark2.1.0 + CarbonData1.0.0+hadoop2.7.2集群模式部署及使用入门
Spark2.1.0 + CarbonData1.0.0+hadoop2.7.2集群模式部署及使用入门 参考http://blog.youkuaiyun.com/coridc/article/details/61915801 说明:spark2.1.1不兼容,hadoop-2.7.3可以兼容转载 2017-09-28 09:47:05 · 276 阅读 · 0 评论 -
spark集群
spark集群 系统目前支持三个集群管理器: standalone模式 即独立模式 - 包含在Spark中的简单集群管理器,可以轻松设置集群。 Apache Mesos - 一个通用的集群管理器,也可以运行Hadoop MapReduce和服务应用程序。 hadoop YARN - Hadoop 2中的资源管理器。原创 2017-08-16 16:45:33 · 340 阅读 · 0 评论 -
Spark groupByKey、sortByKey、reduceByKey Java实现
import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function2; import org.apac原创 2018-02-02 16:35:29 · 509 阅读 · 0 评论 -
spark RDD
RDD 是Resilient Distributed Datasets简称,翻译成中文为“弹性分布式数据集”,这个语义揭示了RDD实质上是存储在不同节点计算机中的数据集。 分布式存储最大的好处是可以让数据在不同的工作节点上并行存储,以便在需要数据的时候并行运算,从而获得最迅捷的运行效率。 RDD名称的秘密 Resilient 是弹性的意思。在Spark中,弹性指的是数据的存储方式,即原创 2018-01-29 16:53:27 · 229 阅读 · 0 评论 -
spark wordcount Java代码实现
import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.ap原创 2018-01-25 17:41:15 · 293 阅读 · 0 评论
分享