Spark
小曹变老曹
成为大牛从早睡开始
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark随机森林算法交叉验证、管道模型(pipeline)、模型评估代码实例
package cn.itcast.tags.ml.classificationimport org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.RandomForestClassifierimport org.apache.spark.ml.evaluation.MulticlassClassificationEvaluatorimport org.apache.spark.ml.feature.{Strin原创 2021-03-23 20:59:29 · 586 阅读 · 1 评论 -
Spark的部署模式和缓存机制与Checkpoint
Spark的部署模式standalone模式:分布式部署集群,资源管理和任务监控有spark自己完成,是其他模式的基础Spark on Yarn模式分布式部署集群,资源和任务监控由Yarn管理,目前仅支持粗粒度资源分配方式,包含Cluster和Client运行模式,Cluster适合于生产,Driver运行在集群的子节点上,具有容错功能,Client模式适合测试开发,Driver运行在客户端上.Spark on mesos这是官方推荐的模式,比起yarn更加灵活,用户可以选择两种原创 2020-11-23 20:47:54 · 236 阅读 · 0 评论 -
Spark手写WordCount Spark手写词频统计-scala语言版本
简洁版本val conf: SparkConf =new SparkConf().setMaster("local[*]").setAppName("WordCount")val sc = new SparkContext(conf)sc.textFile("/input").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).saveAsTextFile("/output")sc.stop()详细版本val conf: Spar原创 2020-11-19 23:42:10 · 295 阅读 · 0 评论 -
YARN Client 模式与YARN Cluster 模式流程详解附图
YARN Client 模式流程1)Driver在任务提交的本地机器上运行,Driver启动后会和ResourceManager通讯申请启动ApplicationMaster2)随后ResourceManager分配Container,在合适的NodeManager上启动ApplicationMaster, 此时的ApplicationMaster的功能相当于一个ExecutorLaucher,只负责向ResourceManager申请Executor内存;3)ResourceManager接到App原创 2020-10-25 22:00:17 · 775 阅读 · 0 评论 -
Spark内存管理详解Spark Memory Management
Spark1.6之前,使用的是静态内存管理Spark1.6之后,使用的是统一内存管理根据Spark官网配置信息查到Spark参数官网链接Spark内存管理详情图原创 2020-10-25 11:21:22 · 282 阅读 · 0 评论 -
sparkStreaming与Kafka集成的两种方式(含代码)
由于历史原因,导致有两套API,所以有两种集成方式.new Consumer API从kafka 0.10.0版本开始新版本APIimport org.apache.commons.lang3.time.FastDateFormatimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apach原创 2020-10-23 20:48:44 · 278 阅读 · 0 评论
分享