spark
王小懒ws
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark集群安装
机器部署 准备两台以上的Linux服务器,我这里准备了5台服务器,集群思路大致如下:其中Zookeper是可选项, 下载spark安装包 配置spark 进入到Spark安装目录 cd /home/ws/bigdata/spark-2.3.3-bin-hadoop2.7/ 进入conf目录并重命名并修改spark-env.sh.template文件 cd conf/ mv spa...原创 2019-05-26 10:59:26 · 241 阅读 · 0 评论 -
RDD弹性分布式数据集
一、什么是RDD 什么是RDD?RDD是只读的,分区记录的集合。RDD只能基于稳定物理存储中的数据集合以及其他已有的RDD上执行确定性操作来创建。这些确定性操作被称为转换(transformation),例如map、filter、groupBy、join。因此RDD并不需要物化。并且也因为这个机制使得RDD含有如何从其他RDD衍生出本RDD的相关信息(即Lineage:血统),因此在RDD部分...原创 2019-06-26 23:54:59 · 666 阅读 · 0 评论
分享