
大数据
文章平均质量分 82
打酱油的葫芦娃
一万年太久,只争朝夕!
展开
-
Yarn的调度器--Scheduler探究
引言在Yarn体系中,Scheduler负责为Application分配资源,按照调度策略可分为以下3种:FIFO SchedulerCapacity SchedulerFair Scheduler[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-b1MDm561-1646531647469)(Yarn的调度器–Scheduler探究/1.jpg)]下面具体介绍上述3种调度器:FIFO Scheduler顾名思义,该调度器是按照应用的提交顺序分配资源的,先进先原创 2022-03-06 10:01:34 · 5162 阅读 · 0 评论 -
Yarn的资源配置参数
YARN的资源调度主要针对的是内存(Memory)和CPU,并将其组合抽象成Container来管理分配。在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceManager将某个NodeManager上资源分配给任务(这就是所谓的“资源调度”)后,NodeManager需按照要求为任务提供相应的资源,甚至保证这些资源应具有独占性,为任务运行提供基原创 2022-03-05 16:14:57 · 5760 阅读 · 0 评论 -
Yarn的基本架构
基本流程1.应用程序通client类向ResourceManager提交程序,Application运行所需要的入口类,出口类,运行的命令,运行所需要的cpu资源和内存资源,jar包资源。2.ResourceManager通过内部的调度器,去集群中寻找资源,找到资源后与NodeManager进行通信,去启动相应的ApplicationMaster,AM会按照事先的规划将任务切分为许多的task任务。3.ApplicationMaster之后向ResourceManager进行申请资源,RM会将资源进行原创 2022-03-05 16:13:03 · 7878 阅读 · 0 评论 -
多线程环境下HDFS的FileSystem使用踩坑
最近用户反映项目现场某些Spark服务会莫名宕掉,作为组内的救火小王子,急速远程到现场服务器排查相关问题。打开宕掉服务的日志,发现该服务"遗言"如下:23:46:02.441 [Thread-3] INFO o.a.spark.storage.DiskBlockManager - Shutdown hook called23:46:02.441 [dispatcher-event-loop...原创 2020-04-02 20:42:15 · 8351 阅读 · 9 评论 -
使用Spark Streaming处理Kafka数据流
Kafka作为优秀的日志采集系统,可以作为Spark Streaming的高级数据源,本文主要介绍如何使用Spark Streaming实时处理Kafka传递过来的数据流。1 系统软件本文实验基于的各软件版本如下:Java 1.8.0_191Scala 2.11hadoop-3.0.3zookeeper-3.4.10Spark 2.3.2kafka_2.12-2.0.1kafk...原创 2018-12-08 18:55:10 · 8065 阅读 · 1 评论 -
拥抱微服务--Dubbo入门
随着微服务的流行,Dubbo和Spring Cloud框架受到越来越多的关注,本文主要通过1个简单Demo来介绍Dubbo框架的工作流程。Dubbo是什么?Apache Dubbo (incubating) is a high-performance, java based, open source RPC framework.Dubbo是:一个分布式服务框架;致力于提供高性能和透...原创 2018-12-14 14:47:43 · 5055 阅读 · 1 评论 -
Flink的分布式缓存
分布式缓存Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行,Flink自动将文件或者目录复制到所有task...原创 2019-09-16 10:30:53 · 5124 阅读 · 1 评论