Spark
mikelv01
沉迷量化投资
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark之RDD学习
弹性数据集RDDsRDD 全称为 Resilient Distributed Datasets (弹性分布式数据集) , 是 Spark 最基本的数据抽象。代码中是一个抽象类,它代表一个不可变,可分区,里面元素可并行计算的集合。一个 RDD 由一个或者多个分区 (Partitions) 组成。对于 RDD 来说,每个分区会被一个计算任务所处理,用户可以在创建 RDD 时指定其分区个数,如果没有指定,则默认采用程序所分配到的 CPU 的核心数。RDD 拥有一个用于计算分区的函数 computeRD原创 2020-05-29 09:24:25 · 200 阅读 · 0 评论 -
大数据之Spark的WorkCount相关demo
尚硅谷这个 demo 我是参考尚硅谷视频里的代码,结合之前在 GitHub 上所学的。代码package org.developer.bigdata.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { //创建 sparkConf原创 2020-05-29 09:09:26 · 376 阅读 · 0 评论 -
大数据之Spark学习
spark官网Yarn 模式Spark 客户端直接 Yarn,不需要额外构建 Spark 集群。有 yarn-clien 和 yarn-cluster 两种模式,主要区别在于:Driver 程序的运行节点yarn-client : Driver 程序运行在客户端,适用于交互,调试,希望立即看到 app 的输出yarn-cluster : Driver 程序运行在由 RM (Resource Manager) 启动的 AP(APPMaster) 适用于生产环境装饰者设计模式字符流读取文件原创 2020-05-29 09:06:20 · 307 阅读 · 0 评论
分享