
信息存储
文章平均质量分 87
anzhsoft
程序猿一枚毕业于南开工作于上海。喜欢读书,喜欢跑步,激情似火,心静如水。喜欢编程,喜欢寻根问底各种技术,在各种新技术中汲取营养。喜欢分享,因此以一些高质量的博文来回报各位可爱可敬的程序猿们
展开
-
HDFS追本溯源:体系架构详解
Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。HDFS在Hadoop中扮演了非常基础的作用,以文件系统的形式为上层应用提供海量数据的存储服务。 HDFS作为一个分布式文件系统,具有高容错的特点。它可以部署在廉价的通用硬件上,提供高吞吐率(Throughput)的数据访问,特别适合那些需要处理海量数据集的应用程序。它没有遵循POSIX的要求,不支持ls,cp这样标准的UNIX命令,也不支持fopen和fread这原创 2014-04-11 21:13:47 · 18473 阅读 · 3 评论 -
HDFS HA: 高可靠性分布式存储系统解决方案的历史演进
HDFS,为Hadoop这个分布式计算框架提供高性能、高可靠、高可扩展的存储服务。HDFS的系统架构是典型的主/从架构,早期的架构包括一个主节点NameNode和多个从节点DataNode。 HDFS HA的解决方案可谓百花齐放,Linux HA, VMware FT, shared NAS+NFS, BookKeeper, QJM/Quorum Journal Manager, BackupNode等等。目前普遍采用的是shared NAS+NFS,因为简单易用,但是需要提供一个HA的共享存储设备。而原创 2014-04-10 11:50:32 · 22242 阅读 · 6 评论 -
存储那些事儿(四):传统商业存储融入云计算之路
一年前开始学习Hadoop。Hadoop, 大数据的事实标准,被Facebook, Yahoo,eBay,taobao,baidu广泛应用。Hadoop本身很复杂,包含了很多子项目,不同的应用场景催生了不同的子项目。 最近要做OpenStack的项目,开始学习OpenStack。也反思了一下我现在所从事的行业:企业存储,路在何方? IT的技术发展可以说是日新月异。在人们原创 2014-03-05 15:59:33 · 6801 阅读 · 2 评论 -
存储那些事儿(二): 下一代Linux文件系统BTRFS简介
BTRFS,通常念成 Butter FS,Better FS 或B-tree FS。下一代的Linux文件系统。 它基于写时拷贝(copy-on-write),支持高效的snapshot和clone。它使用b-tree作为存储的数据结构。在BTRFS项目主页上对自己是这么描述的:"一个新的针对Linux的写时复制文件系统,致力于实施高级的功能,同时关注容错、修复和管理方便性。" 它有哪些高级功能呢?下面的feature来自BTRFS的项目主页:http://btrfs.wiki.kerne原创 2014-03-03 14:26:32 · 10628 阅读 · 1 评论 -
存储那些事儿(一):异构虚拟化一种实现SMIS
1. 背景 企业存储是企业信息系统管理很重要的组成部分。企业存储包含了大量的数据,供大量人使用。对于航空系统和金融系统来说,信息存储就更加重要了。 作为企业信息存储,扩展性是非常重要的,因为现在企业对于空间的使用越来越多。 那么一个企业可能会采用其他存储厂商的产品,原来信息如何保留? 使用数据迁移功能(migration),可以将数据转移到其他系统上。但是企业数据数原创 2014-01-18 21:06:34 · 15500 阅读 · 12 评论 -
存储那些事儿(五):BTRFS文件系统之Btree结构详解
Btree数据结构可以说是BTRFS文件系统的基础。它提供了一个通用的方式去存储不同的数据类型。它仅仅存储3个数据类型:key, item和block header。 btrfs_header的定义如下:struct btrfs_header { u8 csum[32]; u8 fsid[16]; __le64 blocknr; __le64 flags;原创 2014-03-13 20:06:02 · 11202 阅读 · 6 评论 -
RAMCloud:内存云存储的内存分配机制
闪存速度的确就是现在存储系统的极限吗?现在有需要基于内存的数据库,比如Redis,TimesTen。也不得不提缓存系统的极佳实践memcached。spark也把操作的中间数据全都放入到内存中,避免了Hadoop实时性和可用性差的问题,有可能对Hadoop的生态圈产生深远影响。spark已经于2014年2月27日正式成为Apache基金会的顶级项目了。 RAMCloud,是一个完全使用DRAM的存储系统,它的所有数据都保存到内存中。当然了为了故障恢复RAMCloud会将日志和数据的备份持久化到原创 2014-03-23 21:02:38 · 30196 阅读 · 20 评论 -
关于大数据时代传统商业存储的思考: 中心存储 VS 分布式存储
传统的商业存储,诞生于大型机,小型机时代。那时候将所有的硬盘集中的放到几个机架上,大型机通过光纤,ISCSI等高速连接到存储系统上。存储系统需要保证高并发,高IO读写速度,数据冗余备份等保护。 现在x86服务器,尤其是Google这种互联网公司都是通过廉价的硬件组装成高大上的集群,分布式文件系统(GFS,HDFS),各种基于内存的系统(memcached, GemFire, RAMCloud),它们都是通过相对廉价的硬件来构建了高并发,高读写速度,高可靠性(虽然每个节点有很高的故障率,但是集群可以原创 2014-03-28 16:39:21 · 16788 阅读 · 0 评论 -
HDFS追本溯源:租约,读写过程的容错处理及NN的主要数据结构
Lease 的机制:hdfs支持write-once-read-many,也就是说不支持并行写,那么对读写的互斥同步就是靠Lease实现的。Lease说白了就是一个有时间约束的锁。客户端写文件时需要先申请一个Lease,对应到namenode中的LeaseManager,客户端的client name就作为一个lease的holder,即租约持有者。LeaseManager起什么作用呢?读写过程的容错是怎么做的?数据块是如何复制的?数据块的恢复机制?本文都有涉及。原创 2014-05-01 09:43:16 · 8876 阅读 · 2 评论 -
HDFS追本溯源:HDFS操作的逻辑流程与源码解析
本文主要介绍5个典型的HDFS流程,这些流程充分体现了HDFS实体间IPC接口和stream接口之间的配合。Client和NameNode,主要是介绍了Client对NN的各种文件系统目录树元数据的操作。还通过源码分析了HDFS在读取文件时,Client,NN和DN发生的事件和这些事件的顺序。 即使不考虑出现错误的情况,写文件也是HDFS最复杂的流程。本文通过创建一个新文件并向文件写入数据,结束后关闭这个文件为例,分析文件写入时各个节点之间的配合。还讨论了DN的启动及其与NN之间的交互。包括DN从启动到原创 2014-04-13 19:37:43 · 16156 阅读 · 2 评论 -
IT职场: 选择外企利与弊
IT外企工作氛围好,轻松,人性化,有比较多的培训时间,福利也不错。弊就是调薪幅度每年较固定,比不上互联网企业,这个可能是软件类企业的通病吧,但是想到悠闲的工作也便释然;所做的东西都是比较成熟的,因此可能会一叶障目不见泰山;不可能完全自主的去实现某些功能,很有可能会受限于国外的所谓架构师。原创 2014-01-17 12:21:58 · 5486 阅读 · 3 评论 -
存储那些事儿(三):OpenStack的块存储Cinder与商业存储的融合
OpenStack是一个美国国家航空航天局和Rackspace合作研发的云端运算软件,以Apache许可证授权,并且是一个自由软件和开放源代码项目。OpenStack是IaaS(基础设施即服务)软件,让任何人都可以自行建立和提供云端运算服务。此外,OpenStack也用作建立防火墙内的“私有云”(Private Cloud),提供机构或企业内各部门共享资源。 Cinder提供了OpenStack的Block Service(块服务)。类似于 Amazon 的 EBS 块存储服务,OpenS原创 2014-03-04 18:03:25 · 11498 阅读 · 5 评论 -
优快云专访:大数据时代下的商业存储
我的优快云专访。摘要:EMC公司作为全球信息存储及管理产品方面的领先公司,不久前,EMC宣布收购DSSD加强和巩固了其在行业内的领导地位,日前我们有幸采访到EMC中国的张安站,他就大数据、商业存储、Spark等给大家分享了自己的看法。原创 2014-07-05 10:52:42 · 19855 阅读 · 0 评论