
青训营笔记-大数据
文章平均质量分 88
21级的乐未央
人工智能学院的程序小猿一枚~
展开
-
青训营-HDFS高可用与高扩展机制
字节跳动HDFS依然在持续迭代,在元数据扩展性、数据治理与调度、数据生态体系、单机存储引擎、云上存储等方向依然大有可为。延迟的分布:用百分数来表示访问的延迟的统计特征,例如p95延迟为1ms,代表95%的请求延迟要低于1ms,但后5%的请求延迟会大于1ms。路径最长匹配规则:/、/home、/user/bob、/user/tiger/warehouse、/usertiger/dump。会显著的要差于平均值。数据的不均匀:、节点容量不均匀、数据新旧不均匀、访问类型不均匀、资源负载不均匀。原创 2023-09-13 22:38:09 · 235 阅读 · 0 评论 -
青训营-HDFS原理与应用
数据块信息维护:目录树保存每个文件的块id、NameNode维护了每个数据块所在的节点信息 、NameNode根据DataNode汇报的信息动态维护位置信息、NameNode不会持久化数据块位置信息。2)心跳汇报:把存放在本机的数据块列表发送给NameNode,以便NameNode能维护数据块的位置信息,同时让NameNode确定该节点处于正常存活状态。5)数据放置:系统是由多个节点组成,数据是多个副本存放时,需要考虑数据存放的策略。原创 2023-09-13 22:36:28 · 89 阅读 · 0 评论 -
青训营-Presto架构原理与优化介绍
2)与Mapreduce Job相比,OL AP引擎常通过SQL的形式,为数据分析、数据开发人员提供统一的逻辑描述语言,实际的物理执行由具体的引擎进行转换和优化。➢Driver:Pipeline的可执行实体,Pipeline和Driver的关系可类比程序和进程,是最小的执行单元,通过火山迭代模型执行每一个Operator.LocalExchange:Stage 内的rehash操作,常用于提高并行处理数据的能力(Task在Presto中只是最小的容器,而不是最小的执行单元)如下图,自底向上为调用关系。原创 2023-09-13 22:34:56 · 218 阅读 · 0 评论 -
青训营-大数据shuffle原理与实践
map任务的shuffle writer过程完成后,增加了一个额外的操作push-merge,将数据复制 份推到远程shuffle服务.上magnet shuffle service是一个强化版的ESS。目前在各个引擎中shuffle都是优化的重点,在spark框架中,shuffle 是支撑spark进行大规模复杂数据处理的基石。如果magnet上的block因为重复或者冲突等原因,没有正常完成merge的过程,则reduce task直接拉取未完成merge的block。原创 2023-09-13 22:32:10 · 657 阅读 · 0 评论 -
青训营-流计算中的Window计算
迟到定义:一条数据到来后,会用WindowAssigner给它划分一个window,一般时间窗口是一个时间区间, 比如10:00, 11:00),如果划分出来的window end比当前的watermark值还小,说明这个窗口已经触发了计算了,这条数据会被认为是迟到数据。需求:根据YARN上报的各个container的信息,在任务结束的时候,尽快的计算出一一个 任务运行所消耗的总的资源。Flink的API是分层结构,本图表示API抽象程度的分层,层次越高,抽象程度越高,用户的使用成本越低,表达能力更有限。原创 2023-09-13 22:27:43 · 118 阅读 · 0 评论 -
青训营-流/批/OLAP 一体的Flink引擎介绍
2)执行引擎层(Runtime 层) :执行引擎层提供了统一的DAG, 用来描述数据处理的Pipeline,不管是流还是批,都会转化为 DAG图,调度层再把DAG转化成分布式环境下的 Task, Task 之间通过Shuffle传输数据;并且Flink 在流批一体上,从上面的API到底层的处理机制都是统一的,是真正意义上的流批一体。.基于文件的Pull Based Shuffle,比如Spark或MR,它的特点是具有较高的容错性,适合较大规模的批处理作业,由于是基于文件的,它的容错性和稳定性会更好些;原创 2023-09-13 22:23:25 · 262 阅读 · 0 评论 -
青训营-Spark 原理与实践
spark. Sql shuffle partition作业粒度参数,一个作业中所有Stage都一样,但是每个Stage实际处理的数据不一样,可能某些Stage的性能比较差,比如:partition参数对某个Stage过大,则可能单个partition的大小比较小,而且Task个数会比较多,shufle fetch阶段产生大量的小块的随机读,影响性能。分区决定了并行计算的数量,创建RDD的时候可以指定它的分区个数,否则将按照默认值;原创 2023-09-13 22:17:09 · 206 阅读 · 0 评论 -
青训营-Exactly Once语义在Flink中的实现
在多个节点参与执行的分布式系统中,为了协调每个节点都能同时执行或者回滚某个事务性的操作,引入了一个中心节点来统一处理所有 节点的执行逻辑,这个中心节点叫做协作者(coordinator) ,被中心节点调度的其他业务节点叫做参与者(participant)。算子会等待所有上游的barrier到达后才开始快照的制作:已经制作完成的上游算子会继续处理数据,并不会被下游算子制作快照的过程阻塞。1)解耦了快照制作和数据处理过程,各个算子制作完成状态快照后就可以正常处理数据,不用等下游算子制作制作完成快照;原创 2023-09-13 22:10:18 · 80 阅读 · 0 评论 -
青训营-大数据体系
分析引擎:S 批式分析:Spark,Hive,MR Q 实时分析:Flink L 交互分析Presto,ClickHouse,Doris 消息队列:Kafka,Pulsar,NSQ。RBO-谓词下推(显著减少计算量) -传递闭包:根据一些条件推导新条件 -RUNTIME FILTER。6)存储系统:HDFS,HBase,NAS,Object Store,数据湖。1)业务应用:BI报表,数据挖掘,营销分析,精准推荐。子节点:selectlist:包含选择的列的信息。7)基础设施:ESC,存储,VPC。原创 2023-09-13 22:07:52 · 86 阅读 · 0 评论