云存储与容器技术:Tachyon、Docker 与 Kubernetes 深度解析
1. Tachyon 分布式文件系统
Tachyon 是一个分布式文件系统,能够在集群计算框架间以内存速度实现可靠的数据共享。它具有两层架构:
- 谱系层(Lineage Layer) :追踪生成数据输出的作业序列。
- 持久层(Persistence Layer) :管理存储中的数据,主要用于异步检查点。该层可以是任何基于复制的存储,如 HDFS。
Tachyon 采用主从架构,主节点有多个被动副本,每个集群节点上运行着工作守护进程来管理本地资源。谱系信息由主节点内的工作流管理器跟踪,该管理器计算检查点的顺序,并与集群资源管理器交互以获取重新计算所需的资源。
每个工作节点使用 RAM 磁盘来存储内存映射文件,并借鉴了 Spark 中的宽依赖和窄依赖概念来执行操作。Tachyon 大约用 36000 行 Java 代码实现,并使用 ZooKeeper 在主节点故障时选举新的主节点。
Tachyon 谱系能够满足 MapReduce、SQL 和 Hadoop 的需求,Spark 也可以在 Tachyon 之上运行。与内存中的 HDFS 相比,Tachyon 的写入吞吐量高 110 倍,对于实际工作负载,端到端延迟提高了四倍。此外,它还可以将网络流量减少多达 50%,因为许多临时文件在检查点之前就被删除了。来自 Facebook 和 Bing 的数据显示,它在重新计算时消耗的集群资源不超过 1.65%。
超级会员免费看
订阅专栏 解锁全文
592

被折叠的 条评论
为什么被折叠?



