HDFS
Regan_Hoo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HDFS_异构存储
1. 异构存储概述 异构存储可以根据各个存储介质读写特性的不同发挥各自的优势。针对冷数据,采用容量大的、读写性能不高的介质存储,比如最普通的磁盘;对于热数据,可以采用SSD(固态硬盘,读写速度快,容量小)的方式进行存储。2. 异构存储的原理 ·DataNode通过心跳汇报自身数据存储目录的StorageType给NameNode ·随后NameNode进行汇总原创 2017-11-20 17:58:16 · 3631 阅读 · 0 评论 -
HDFS_数据迁移&节点迁移
一、数据迁移使用场景:① 冷热集群数据分类存储 ② 集群数据整体搬迁 ③ 数据的准实时同步,目的在于数据的双备份可用数据迁移要素考量:① 带宽Bandwidth:需要限流② 性能Performance:采用单机程序还是分布式程序?③ 增量同步Data-Increment:原始数据文件进行了追加写、原始数据文件被删除或重命名 在海量数据存储系统如HDFS中,一般不会在源文件内容上做修改,要么原创 2017-11-23 09:39:20 · 4757 阅读 · 0 评论 -
HDFS_镜像文件
镜像文件的解析与反解析:HDFS的FsImage镜像文件包含着集群所有文件的元数据信息。 <name>dfs.namenode.name.dir</name>FsImage的存储信息包括:文件目录信息、位置信息、副本数、权限信息HDFS关于镜像解析的命令主要以hdfs oiv开头,即OfflineImageView的缩写。解析与反解析只是处理器的不同,目前有以下5大处理器: XML、Rev原创 2017-11-23 09:25:09 · 1103 阅读 · 0 评论 -
HDFS_流
内部限流① Balancer数据平衡 数据流传输 ② Fsimage镜像文件的上传下载数据流传输 ③ VolumeScanner磁盘扫描时的数据流传输以上3种属于非正常业务的数据流传输,是在系统内部进行的,因此Hadoop对这3种操作做了限流操作。HDFS的Quota配额限制:对于每个目录,可以设置该目录下的存储空间的使用(space count)和命名空间的使用(namespace coun原创 2017-11-23 09:15:18 · 446 阅读 · 0 评论 -
HDFS_块
块的含义块是HDFS存储数据的最小单元,块的类型包括:新添加的块、待移除的块、无效的块、损坏的块、正在构建中的块块的汇报DataNode的块汇报是在心跳的过程中进行的。3.块的处理多余副本块以及发生的场景: ① Recommission节点重新上线。运维操作引起。 ② 人为重新设置副本块数。 ③ 新添加的块记录在系统中被丢失。多余副本块的处理分为两个子过程: ① 多余副本的选出 ②原创 2017-11-21 13:52:06 · 440 阅读 · 0 评论 -
HDFS_磁盘目录服务
磁盘目录服务简介HDFS在DataNode所在的节点中启动了多种磁盘目录的检测服务,来保证数据的完整性与一致性,其中包括:DiskChecker、DirectoryScanner和VolumeScanner① DiskChecker:坏盘检测服务。检测的级别是每个磁盘,检测的对象是FsVolume,FsVolume对应一个存储数据的磁盘。通过检测文件目录的访问权限以及目录是否可创建来判断目录所属磁盘原创 2017-11-21 10:43:38 · 1029 阅读 · 0 评论 -
HDFS_视图文件系统
磁盘目录服务简介HDFS在DataNode所在的节点中启动了多种磁盘目录的检测服务,来保证数据的完整性与一致性,其中包括:DiskChecker、DirectoryScanner和VolumeScanner① DiskChecker:坏盘检测服务。检测的级别是每个磁盘,检测的对象是FsVolume,FsVolume对应一个存储数据的磁盘。通过检测文件目录的访问权限以及目录是否可创建来判断目录所属磁盘原创 2017-11-21 10:43:22 · 698 阅读 · 0 评论 -
HDFS_数据加密空间
磁盘目录服务简介HDFS在DataNode所在的节点中启动了多种磁盘目录的检测服务,来保证数据的完整性与一致性,其中包括:DiskChecker、DirectoryScanner和VolumeScanner① DiskChecker:坏盘检测服务。检测的级别是每个磁盘,检测的对象是FsVolume,FsVolume对应一个存储数据的磁盘。通过检测文件目录的访问权限以及目录是否可创建来判断目录所属磁盘原创 2017-11-21 10:43:05 · 1201 阅读 · 0 评论 -
HDFS_纠删码技术
纠删码技术的含义(HDFS EC——Hadoop Erasure Coding)通过在原始数据中加入新的校验数据,使得各个部分的数据产生关联性。在一定范围的数据出错情况下,通过纠删码技术都可以进行恢复。纠删码技术的原理把一行数据块组称为条带(strip),每行条带由n个数据块和m个校验块组成:① 如果校验数据块发生错误,通过对原始数据块进行编码重新生成② 如果原始数据块发生错误,通过校验数据块的解原创 2017-11-21 10:42:42 · 1111 阅读 · 1 评论 -
HDFS_对象存储
纠删码技术的含义(HDFS EC——Hadoop Erasure Coding)通过在原始数据中加入新的校验数据,使得各个部分的数据产生关联性。在一定范围的数据出错情况下,通过纠删码技术都可以进行恢复。纠删码技术的原理把一行数据块组称为条带(strip),每行条带由n个数据块和m个校验块组成:① 如果校验数据块发生错误,通过对原始数据块进行编码重新生成② 如果原始数据块发生错误,通过校验数据块的解原创 2017-11-21 10:42:16 · 3159 阅读 · 0 评论 -
HDFS_缓存
缓存的含义物理层面:利用mmap、mlock这样的系统调用将块数据锁入内存,以此达到在DataNode上缓存数据的效果。 HDFS缓存块由普通的文件转换而来,因为缓存在DataNode内存中,因此HDFS缓存可以大大提高用户读取文件的速度缓存的使用场景① 热点公共资源文件:可以是一些存放于HDFS中的依赖资源jar包,或是一些算法学习依赖的.so文件等。这种场景更好的做法是把它做成分布式缓存,否原创 2017-11-20 18:14:09 · 619 阅读 · 0 评论 -
HDFS_副本和认证
一、 三副本策略三副本策略的含义1)如果写请求方所在机器是其中一个DataNode,则直接存放在本地,否则随机在集群中选择一个DataNode2)第二个副本存放在不同于第一个副本所在的机架3)第三个副本存放于第二个副本所在的机架,但是属于不同的节点三副本策略的使用需要开启机架感知功能,才能正常使用副本放置策略:<name>net.topology.script.file.name</name>原创 2017-11-20 18:30:08 · 456 阅读 · 0 评论 -
HDFS_快照
快照的含义快照不是数据的简单拷贝,快照只做差异的记录。HDFS中只为每个快照保存相对当时快照创建时间点发生过变更的INode信息,只是“存不同”。快照的作用① 丢失数据的恢复。这里丢失的数据指的是相对于创建快照时间点之后丢失的数据。在HDFS的快照中,只会额外复制发生变更的数据,所以在快照内部,自然会存在丢失数据的一个备份,这个时候只需要将对应快照文件目录拷贝一份即可。② 元数据的差异比较。HDF原创 2017-11-20 18:21:37 · 552 阅读 · 0 评论 -
HDFS_基本概念
一、HDFS基本概念HDFS设计基础与目标① 有冗余 ② 数据批量读取而不是随机读取 ③ 大规模数据集 ④ 对文件采用一次写入多次读取的逻辑设计,文件一经写入,关闭,就再也不能修改 ⑤ 采用“数据就近”原则分配节点执行应用场景: 时延;吞吐量 MapReduce计算模型;海量数据的理想分析;静态数据源HDFS体系结构① NameNode -管理文件系统的命名空间; -记录每个文原创 2017-11-23 11:20:04 · 533 阅读 · 0 评论
分享