
Hadoop
我是一名程序猿
延青的格言:会当凌绝顶,一览众山小。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Permission denied:user=xxx,access=WRITE,inode=xxx
Eclipse操作HDFS遇到的权限问题背景:我要测试HDFS的可用性,于是我在eclipse中添加文件进行测试,出现如下图片问题问题出现的原因:Linux系统和windows系统的差异性解决思路:配置window下的HDFS的环境变量。具体步骤:1.解压一个hadoop包,把这个文件配置进入环境变量2.进入环境变量配置,添加下图画圈处的两个变量:3.把hadoop配置进Path环境变量里面4.关...原创 2018-06-06 21:01:49 · 8439 阅读 · 0 评论 -
HDFS的设计
HDFS以流式数据访问模式来存储超大文件,运行在商用硬件集群上。我们先阅读以下的文字:1. 超大文件超大文件这里是指具有几百MB、几百GB、几百TB、PB级别的数据文件。2.流式数据访问HDFS的构建思路是这样的,一次写入、多次读取是最高效的访问模式。数据集通常由数据源生成或从数据源复制而来,接着长时间在此数据集上进行各种分析。但每次分析都将涉及该数据集的大部分数据甚至全部,因此读...翻译 2019-07-21 14:56:14 · 307 阅读 · 0 评论 -
HDFS的数据块概念
数据块每个磁盘都有默认的数据块大小,这是磁盘进行数据 读/写的最小单位。构建于每个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块,该文件系统的大小可以是磁盘块的整数倍。文件系统块一般为几千字节,而磁盘块一般为512字节。这些信息对于需要读写文件的用户来说是透明的。尽管如此,系统仍然提供了一些工具(df、fsck)来维护文件系统,由它们对文件系统中的块进行操作。HDFS有块的概念,块大小...翻译 2019-07-21 15:15:23 · 1979 阅读 · 0 评论 -
namenode和datanode运行原理
HDFS集群中有两类节点:工作节点datanode、管理节点namenodenamenode管理文件系统的命名空间,它维护着文件系统树以及该树所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上,分别是命名空间镜像文件和编辑日志文件。namenode记录着每个文件系统中各个块所在的数据节点信息,但它不永久保存块的位置信息,因为这些信息会在系统启动时根据数据节点信息重建。data...翻译 2019-07-21 15:33:44 · 955 阅读 · 0 评论 -
延时调度
延时调度的定义所有的YARN调度器都试图以本地请求为重。在一个繁忙的集群上,如果一个应用请求某个节点,那么极有可能此时有其他容器正在该节点上运行。理想中的处理方式是,立刻放宽本地需求,在同一机架上分配一个容器。但是,实际上为,此时如果等待一小段时间(不超过几秒),能够增加在所请求的节点上分配到一个容器的机会,从而可以提高集群的效率。这个特性称为“延迟调度”。容量调度器和公平调度器都支持延时调度...翻译 2019-07-26 14:10:57 · 1016 阅读 · 0 评论 -
HDFS块缓存以及联邦HDFS
HDFS块缓存通常datanode从磁盘中读取块,但对于访问频繁的文件,其对应的块可能被显式地缓存在datanode的内存中,以堆外块缓存(off-heap block cache)的形式存在。默认情况下,一个块缓存在一个datanode的内存中,当然可以调整每个文件配置的数量。作业调度器(用于MapReduce、Spark和其他框架)通过在缓存块的datanode上运行任务,可以利用块缓...转载 2019-07-22 17:19:22 · 345 阅读 · 0 评论 -
HDFS的高可用性
通过联合使用在多个文件系统中备份namenode的元数据和通过备用namenode创建监测点能防止数据丢失,但是依旧无法实现文件系统的高可用性。namenode依旧存在单点失效的问题。如果namenode失效了,那么所有的客户端,包括MapReduce作业,均无法读、写或列举文件,因为namenode是唯一存储元数据与文件到数据块映射的地方。在这一情况下,Hadoop系统无法提供服务直到有可用的n...翻译 2019-07-22 18:28:32 · 735 阅读 · 0 评论 -
HDFS中的文件访问权限
针对文件和目录,HDFS的权限模式与POSIX的权限模式非常相似。一共提供三类权限模式:只读权限、写入权限、可执行权限。读取权限:读取文件或列出目录内容 写入权限:写入一个文件或者在一个目录上新建及删除文件、目录 执行权限:访问目录的子目录或者子文件每个文件和目录都有所属用户、所属组别、模式。这个模式是由所属用户的权限、组内成员的权限以及其他用户的权限组成。在默认情况下,Hado...翻译 2019-07-23 12:41:23 · 2096 阅读 · 1 评论 -
Hadoop文件系统
Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。Java抽象类org.apache.hadoop.fs.FileSystem定义了Hadoop中一个文件系统的客户端接口,并且抽象类有几个具体实现,下面我们以列表来展示一下:Hadoop文件系统抽象类 文件系统 URI方案 Java实现 详细描述 Local file fs.LocalF...翻译 2019-07-23 13:01:11 · 195 阅读 · 0 评论 -
公平调度器配置
概念公平调度器主要为所有运行的应用公平分配资源。设想一个场景:假设有 A和B两个用户,分别拥有自己的队列。A启动一个作业,在B没有需求时A会分配到全部可用的资源; 当A的作业仍在运行时B启动了一个作业,一段时间后,按照我们之前看到的方式,每个作业都用到了一半的集群资源。这时如果B启动第二个作业并且其它作业仍在运行,那么第二个作业将和B的其它作业共享资源,因此B的每个作业将占用四分之一...翻译 2019-07-24 18:21:38 · 1058 阅读 · 0 评论 -
容量调度器的配置
详说容量调度器运行方式容量调度器允许多个组织共享一个Hadoop集群 ,每个组织可以分配到全部集群资源的一部分,每个组织被配置一个专门的队列,每个队列被配置为可以使用一定的集群资源。队列可以进一步按照层次划分,这样每个组织内的不同用户能够共享该组织队列所分配的资源。在一个队列内,使用FIFO调度策略对应用进行调度。单个作业使用的资源不会超过所在的队列容量。但是,如果队列中有多个作业,假如队...翻译 2019-07-24 17:20:44 · 1068 阅读 · 0 评论 -
简单介绍YARN三种调度器
为什么会有YARN调度器,在理想情况中,YARN应用发出的资源请求应该立刻给予满足,但是现实中资源时有限的,在一个繁忙的集群上,一个应用经常需要等待才能够得到所需要的资源。YARN调度器的工作就是根据已定策略为其应用分配资源。调度通常是一个难题,并且没有一个所谓的最好的策略。接下来,讲解YARN中的三个调度器。YARN中有三种调度器:FIFO调度器、容量调度器、公平调度器FIFO调度器...翻译 2019-07-24 16:34:10 · 961 阅读 · 0 评论 -
zookeeper: It is probably not running.
zookeeper搭建中会遇到这个问题It is probably not running.这是因为在启动zookeeper服务后,zookeeper服务不会立即生效,而是需要一定的启动时间,具体时间根据机器性能来决定。解决方法:耐心等待几十秒,或者一定的时间,再次输入zkServer.sh status命令查看,输出中带有leader和follow就表示服务已启动。...原创 2018-06-09 13:09:17 · 553 阅读 · 0 评论 -
zookeeper部署搭建
配置zookeeper修改范围服务器A、服务器B、服务器C下载Zookeeper放置在/home下面1. 修改dataDir=/opt/zookeeper2. 修改 zoo.cfg文件server.1=test1:2888:3888server.2=test2:2888:3888server.3=test3:2888:3888 3. 结合第一步,分别到三台机器的/opt/ zookeeper文件夹...原创 2018-06-26 16:35:22 · 210 阅读 · 0 评论 -
什么是PV和UV
什么是PV值 PV(page view ) 是网站分析的一个术语,用以衡量网站用户访问的网页的数量。对于广告主,PV 值可预期它可以带来多少广告收入。一般来说,PV 与来访者的数量成正比,但是 PV 并不直接决定页面的真实来访者数量,如同一个来访者通过不断的刷新页面,也可以制造出非常高的 PV。 PV 即页面浏览量或点击量,是衡量一个网站或网页用户访问量。具体的说,...原创 2018-08-12 23:02:33 · 36027 阅读 · 0 评论 -
HDFS写入数据及创建目录
FileSystem类有一系列新建文件的方法。最简单的方法就是给准备建的文件指定一个Path对象,然后返回一个用于写入数据的输出流:public FSDataOutputStream create(Path f) throws IOException 此方法有多个重载版本,允许我们指定是否需要强制覆盖现有的文件、文件备份数量、写入文件时所用缓冲区大小、文件块大小、以及文件权限。create()...翻译 2019-07-23 15:58:24 · 10435 阅读 · 0 评论 -
HDFS——查询文件系统详解
1. 文件元数据:FileStatus任何文件系统的一个重要特征都是提供其目录结构浏览和检索它所存文件和目录相关信息的功能。FileStatus类封装了文件系统中文件和目录的元数据,包括文件长度、块大小、复本、修改时间、所有者、权限信息。FileStatus的getFileStatus()方法用于获取文件或目录的FileStatus对象。看下面:范例1,展示文件状态信息publi...翻译 2019-07-23 17:16:20 · 1544 阅读 · 0 评论 -
HDFS——删除数据
使用FileSystem中的delete()方法可以永久性的删除文件或目录。public boolean delete(Path f,boolean recursive) throws IOException如果 f 是一个空目录,那么recursive的值就会被忽略,只有在recursive为true时,非空目录及其内容才会被删除,否则会抛出IOException异常。...翻译 2019-07-23 17:22:21 · 5045 阅读 · 0 评论 -
Hadoop与网络拓扑
在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准。不用衡量节点之间的带宽,实际上很难实现(它需要有一个稳定的集群,并且在集群中两两节点对数量是节点数量的平方),Hadoop为此采用一个简单的方法:把网络看做一棵树,两个节点间的距离是他们到最近共同祖先的距离总和,该树中的层...翻译 2019-07-23 17:37:42 · 1174 阅读 · 0 评论 -
Yarn运行机制
简单介绍YARNYARN通过两类长期运行的守护进程提供自己的核心服务:管理集群上资源使用的资源管理器(Resource Manager) 运行在集群中所有节点上且能够启动和监控容器的节点管理器(Node Manager)容器用于执行特定应用程序的进程,每个容器都有资源限制(内存、CPU等),一个容器可以是一个Unix进程,也可以是Linux cgroup,取决于YARN的配置。下图为Y...翻译 2019-07-24 16:09:18 · 639 阅读 · 0 评论 -
HDFS中读取数据——Java接口实现
这一篇文章,我们来深入了解一下Hadoop中的FileSystem类,它是与Hadoop的某一文件系统进行交互的API。虽然我们主要聚焦于HDFS实例,即DistributedFileSystem,但总体来说,还是应该集成FileSystem抽象类,并编写代码,使其在不同文件系统中可移植。这对测试你编写的程序非常重要,例如,我们可以使用本地文件系统中的存储数据快速进行测试。从Hadoop UR...翻译 2019-07-23 14:10:59 · 3978 阅读 · 0 评论