
分布式
<-->
gitlijian.cn
展开
-
Storm调研
流计算: 将⼤规模流动数据在不断变化的运动过程中实现数据的实时分析,捕捉到可能有⽤的信息,并把结果发送到下⼀计算节点。Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流计算技术中的佼佼者和主流。Storm的作业拓扑...原创 2020-11-19 09:25:03 · 188 阅读 · 0 评论 -
Apache Hadoop的核心组件
Haddoop Common:常见的使用工具,用来支持其他Hadoop模块。Hadoop Distributed File System(HDFS):分布式文件系统,它提供对应用程序数据的高吞吐量访问。Hadoop YARN:一个作业调度和集群资源管理框架。Hadoop MapReduce:基于YARN的大型数据集并行处理系统。Ambari:一个基于Web的工具,用于配置、管理和监控Apache Hadoop集群,支持Hadoop HDFS、Hadoop MapReduce、Hive、HCa原创 2020-10-30 15:39:04 · 725 阅读 · 0 评论 -
一些很常见的概念
活锁和死锁的区别在于,处于活锁的实体是在不断的改变状态,所谓的“活”, 而处于死锁的实体表现为等待;活锁有可能自行解开,死锁则不能。原创 2020-07-17 11:36:29 · 242 阅读 · 0 评论 -
Paxos算法
应用:Google Chubby、 MegaStore 、 Spanner、 Zoomkeeper在paxos算法中的四种角色:Proposer:提议者;Acceptor:决策者;Client:产生议题者;Learner: 最终决策学习者算法分为两阶段执行:阶段1Proposer:选择一个议案编号n, 向Acceptor的多数派发送编号也为n的prepare请求Acceptor:如果接收到的prepare请求的编号n大于它已经回应的任何prepare请求,则它就回应已经批原创 2020-10-22 15:36:59 · 160 阅读 · 1 评论 -
分布式提交(2PC 和 3PC)
目的:保证多个参与者之间原子性1、2PC第一阶段(准备阶段):协调者节点向所有参与者节点询问是否可以执行提交操作(vote),并开始等待各参与者节点的响应。参与者节点执行所有事务操作,并将Undo信息和Redo信息写入日志(注意:若成功,这里每个参与者已经执行了事务操作)。各参与者节点响应协调者节点发起的询问。如果参与者节点的事务操作实际执行成功,则它返回一个”同意“消息;如果参与者节点的事务操作实际执行失败,则它返回一个”中止“消息。第二阶段(提交阶段):如果协调者收到了参与者的失败消息或者超原创 2020-10-22 15:10:36 · 265 阅读 · 0 评论 -
一致性
1.一致性1.1 以数据为中心的一致性模型1)严格一致性(Strict Consistency):任意读操作都要读到最新的 写的结果,严格一致性是限制性最强的模型,依赖于绝对的全局时钟,但是在分布式系统中实现这种模型的代价太大,所以在实际系统的运用有限,基本不可能做到。2)持续一致性(Continuous Consistency):有多种不同的方法来为应用程序指定它们能容忍哪些不一致性,其中有一种通用的方法,它定义了区分了不一致性的三个互相独立的坐标轴:副本之家你的数值偏差、副本之间的新旧程..原创 2020-10-22 12:57:48 · 510 阅读 · 0 评论 -
Spanner 讨论
spanner讨论Published in the Proceedings of OSDI 2012OSDI是计算机学界最顶级学术会议之一,全称本来是USENIX Symposium on Operating Systems Design and Implementation,简称OSDI问题:如何理解:schema:external consistency:consistency :linearizability :serializability:commit wa原创 2020-10-16 17:06:22 · 465 阅读 · 0 评论 -
Spark笔记
Spark:一个通用的并行计算框架,目的在于解决hadoop的一些缺陷。使用场景:Hadoop常用语解决高吞吐、批量处理的业务场景,列入离线计算结果用于浏览器统计。相比Hadoop,Spark可以实时的查看浏览量统计信息。快速处理能力,支持数据在内存中计算。 支持查询 支持流式计算一些概念:RDD(resilient distributed dataset)弹性分布式数据集DAG(directed acycle graph)有向无环图...原创 2020-08-13 16:05:33 · 92 阅读 · 0 评论 -
ceph
论文翻译:https://blog.youkuaiyun.com/juvxiao/article/details/39495037原创 2020-08-05 12:33:16 · 90 阅读 · 0 评论 -
ZoomKeeper
ZoomKeeper一个用于协调分布式应用程序的无等待服务。线性化:更改zoomkeeper状态的所有请求Zab:可以保证令人满意的线性化更新操作ZooKeeper guarantees可线性化写(Linearizable writes):所有更新zoomkeeper状态的请求都是可序列化的❓,并且遵守先后原则。 FIFO client order:来自客户端的所有请求都按照客户端发送的顺序执行。ZooKeeper Implementat...原创 2020-07-30 19:56:54 · 1558 阅读 · 0 评论 -
MapReduce
基于MapReduce的WordCount设计一、WordCount的功能通过mapreduce分布式计算模型对大量文本中的单词出现频率进行统计,本实验设计9个节点,其中一个客户端,7个worker节点(其中4个map节点,3个reduce节点),一个master节点。客户端存放需要进行词频统计的原始文本数据,并负责将这些数据进行分片,map节点从master节点处获取客户端节点的状态,当客户端处数据分片完成后,map节点从master节点获得分片后数据的存放位置,并取走分片后的数据,当..原创 2020-06-27 22:39:36 · 390 阅读 · 0 评论 -
raft论文翻译
https://github.com/maemual/raft-zh_cn/blob/master/raft-zh_cn.md原创 2020-06-24 09:06:23 · 201 阅读 · 0 评论 -
MapReduce Shuffle 和 Spark Shuffle 原理概述
MapReduce Shuffle 和 Spark Shuffle 原理概述https://www.cnblogs.com/xiaodf/p/10650921.html原创 2020-05-16 18:31:35 · 135 阅读 · 0 评论