
大数据技术
大数据技术
醉饮红尘520
这个作者很懒,什么都没留下…
展开
-
HDFS概述及设计目标
1.HDFS概述及设计目标1.1.什么是DFS分布式文件系统DFS(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色。例如,用户可以“发表”一个允许其他客户机访问...原创 2019-09-04 15:23:38 · 1090 阅读 · 0 评论 -
HDFS架构和文件读写过程
1.HDFS架构HDFS由四部分组成,即HDFS Client、NameNode、DataNode和Secondary NameNode。HDFS是主/从式的架构。一个HDFS集群会有一个NameNode(简称NN),也就是命名节点,该节点作为主服务器存在(master server)。NameNode用于管理文件系统的命名空间以及调节客户访问文件。此外,还会有多个DataNode(简称DN),...原创 2019-09-04 15:38:55 · 282 阅读 · 0 评论 -
HDFS副本存放机制和流水线复制
1.HDFS副本存放机制在HDFS中,一个文件会被拆分为一个或多个数据块。默认情况下,每个数据块都会有3个副本。每个副本都会被存放在不同的机器上,而且每一个副本都有自己唯一的编号。NameNode节点选择一个DataNode节点去存储block副本的过程就叫做副本存放,这个过程的策略其实就是在可靠性和读写带宽间的权衡。《Hadoop权威指南》中副本存放的默认方式:第一个副本会随机选择,...原创 2019-09-05 18:50:20 · 3242 阅读 · 1 评论 -
HDFS单节点伪分布式环境搭建
官方安装文档地址如下:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0/hadoop-project-dist/hadoop-common/SingleCluster.html环境描述:CentOS7.3安装CentOS虚拟机可参考https://blog.youkuaiyun.com/babyxue/article/detai...原创 2019-09-05 19:04:07 · 167 阅读 · 0 评论 -
HDFS shell操作
HDFS自带有一些shell命令,通过这些命令我们可以去操作HDFS文件系统,这些命令与Linux的命令挺相似的,如果熟悉Linux的命令很容易就可以上手HDFS的命令,关于这些命令的官方文档地址如下:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0/hadoop-mapreduce-client/hadoop-mapred...原创 2019-09-05 19:13:05 · 114 阅读 · 0 评论 -
HDFS高可用性分布式环境搭建
1.HDFS高可用简介在 Hadoop 1.X版本中,NameNode是整个HDFS集群的单点故障(single point of failure,SPOF):每一个HDFS集群只能有一个NameNode节点,一旦NameNode所在服务器宕机或者出现故障将导致整个集群都不可用,除非重启或者开启一个新的Namenode集群才能够恢复可用。NameNode单点故障对HDFS集群的可用性产生影响主要...原创 2019-09-06 13:45:03 · 352 阅读 · 0 评论 -
SpringBoot项目集成HDFS API
Java操作HDFS主要涉及以下几个主要的类Configuration:封装了客户端或者服务器的配置信息;FileSystem:此类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作通过FileSystem的静态方法get获得该对象,例:FileSystem hdfs = FileSystem.get(conf);FSDataInputStream:这是HDFS中的输入流...原创 2019-09-06 13:49:15 · 1704 阅读 · 0 评论