【分布式文件系统Tachyon介绍】

最新推荐文章于 2021-08-24 09:04:46 发布

最新推荐文章于 2021-08-24 09:04:46 发布 · 216 阅读

文章标签：

#分布式文件系统Tachyon介绍

分布式文件系统Tachyon 专栏收录该内容

1 篇文章

订阅专栏

Tachyon是一款以内存为中心的分布式文件系统，旨在解决大数据分析中数据共享缓慢及容错问题。通过集成Spark等框架，Tachyon提供高速、可靠的数据共享服务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Tachyon是什么

Tachyon（/'tæki:ˌɒn/ 意为超光速粒子）是以内存为中心的分布式文件系统，拥有高性能和容错能力，能够为集群框架（如Spark、MapReduce）提供可靠的内存级速度的文件共享服务。Tachyon诞生于UC Berkeley的AMPLab，由该实验室的李浩源童鞋初创。2012年12月，Tachyon发布了第一个版本0.1.0。到2014年12月，Tachyon的最新发布版版本为0.5.0，并且正在开发0.6.0版本。目前(2014年12月)，已有50多家公司开始使用Tachyon，超过20家公司（如 Intel， Yahoo， Pivotal， Redhat，Baidu等）为Tachyon的开发进行了贡献，在GitHub上Tachyon的贡献者也已上升到55人。南京大学PASALab从早期就开始和Tachyon Community一起从事着该项目的建设和开发工作。

最初出现是为了解决如下问题：

大数据分析流水线中数据共享通过基于磁盘文件系统（HDFS等）性能比较缓慢；

大数据计算引擎的处理进程（Spark的Executor，MapReduce的Child JVM等）崩溃出错后，缓存的数据也会全部丢失；

基于内存的系统存储数据冗余，对象太多会导致Java GC时间过长；

Tachyon系统架构

图2显示了Tachyon在Spark平台的部署：总的来说，

Tachyon有三个主要的部件：Master， Client，与Worker。在每个Spark Worker节点上，都部署了一个Tachyon Worker，Spark Worker通过Tachyon Client访问Tachyon进行数据读写。所有的Tachyon Worker都被Tachyon Master所管理，Tachyon Master通过Tachyon Worker定时发出的心跳来判断Worker是否已经崩溃以及每个Worker剩余的内存空间量。

Tachyon如何容错？

Tachyon本身又是如何容错的呢？不落地DFS中数据不是照样会丢失吗？而且Tachyon只在内存中保存一份数据拷贝。有一种形象的说法是：Tachyon将lineage从Spark中下移到了自己。既然手握lineage，就有办法了。跟Spark类似，它利用lineage信息(lineage-based recovery)和异步记录的checkpoint来恢复数据 (与Spark类似，都是基于RDD不可变性以及粗粒度操作才能完成的，不同点是Tachyon管理的可以是跨框架的lineage而不限于RDD和Spark的转换？)，所以Tachyon放心大胆地积极(aggressively)使用内存。

其次，Tachyon本身的master通过ZooKeeper集群管理，down机时会自动选举出新的leader，并且worker会自动连接到新的leader上。

心跳机制

在Tachyon中，心跳（HeartBeat）用于两个方面：Master, Worker, Client之间的定期通信；Master, Worker自身的定期状态自检。具体地：

Client向Master发送心跳信号：表示Client仍处于连接中，Client释放连接后重新连接会获得新的UserId

Client向Worker发送心跳信号：表示Client仍处于连接中，释放连接后Worker会回收该Client的用户空间

Worker自检，同时向Master发送心跳信号：Worker将自己的存储空间信息更新给Master（容量，移除的块信息），同时清理超时的用户，回收用户空间

Master自检：检查所有Worker的状态，若有Worker失效，会统计丢失的文件并尝试重启该Worker