一、概述
- 海量数据存储问题
- 数据高可用问题(冗余备份)问题
- 较高的读写性能和负载均衡问题
- 支持多平台多语言问题
- 高并发问题
主要对别指标 csdn这表格太难用了,我还是word整理后搬到这儿来的。
指标 | 适合类型 | 文件分布 | 系统性能 | 复杂度 | FUSE | POSIX | 备份机制 | 通讯协议接口 | 社区支持 | 去重 | 开发语言 |
FastDFS | 4KB~500MB | 小文件合并存储不分片处理 | 很高 | 简单 | 不支持 | 不支持 | 组内冗余备份 | Api HTTP | 国内用户群 |
| C语言 |
TFS | 所有文件 | 小文件合并,以block组织分片 |
| 复杂 | 不支持 | 不支持 | Block存储多份,主辅灾备 | API http | 少 |
| C++ |
MFS | 大于64K | 分片存储 | Master占内存多 |
| 支持 | 支持 | 多点备份动态冗余 | 使用fuse挂在 | 较多 |
| Perl |
HDFS | 大文件 | 大文件分片分块存储 |
| 简单 | 支持 | 支持 | 多副本 | 原生api | 较多 |
| java |
Ceph | 对象文件块 | OSD一主多从 |
| 复杂 | 支持 | 支持 | 多副本 | 原生api | 较少 |
| C++ |
MogileFS | 海量小图片 |
| 高 | 复杂 | 可以支持 | 不支持 | 动态冗余 | 原生api | 文档少 |
| Perl |
ClusterFS | 大文件 |
|
| 简单 | 支持 | 支持 | 镜像 |
| 多 |
| C |
二、常用的分布式文件系统
常见的分布式文件系统有FastDFS,GFS、HDFS、Ceph 、GridFS 、mogileFS、TFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。
FastDFS介绍
=======================
GFS(Google File System)
=======================
Hadoop 实现了一个分布式文件系统,主要用于大数据计算存储,简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。
MongoDB是一种知名的NoSql数据库,GridFS是MongoDB的一个内置功能,它提供一组文件操作的API以利用MongoDB存储文件,GridFS的基本原理是将文件保存在两个Collection中,一个保存文件索引,一个保存文件内容,文件内容按一定大小分成若干块,每一块存在一个Document中,这种方法不仅提供了文件存储,还提供了对文件相关的一些附加属性(比如MD5值,文件名等等)的存储。文件在GridFS中会按4MB为单位进行分块存储。
MogileFS