Hadoop
文章平均质量分 64
Hadoop是由Apache所开发的分布式系统基础架构,本专栏主要记录本人在拜读Apache hadoop官方文档,结合官方API和实际应用后的一些理解和体会。
柏舟飞流
山野村夫,少求学于江城,一无所长,性沉闷,好编码自娱.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop命令行指南
1. 综述Hadoop及其子模块的命令都遵循着相同的基本结构:用法:shellcommand [SHELL_OPTIONS] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]字段 描述 shellcommand 被调用的模块的命令。比如:调用Hadoop common模块下的命令用hadoop,HDFS用hdfs,YARN用yarn。 SHELL_OPTIONS shell在执行Java程序之前需处理的选原创 2021-09-02 22:54:36 · 1347 阅读 · 0 评论 -
HDFS Erasure Coding (纠删码技术)
Hadoop3.0 引入了Erasure Coding (EC, 纠删码技术),根据官网的介绍,使用EC技术可将额外的存储开销控制在不超过50%。存储备份的开销是巨大的,HDFS默认的3x备份机制,使得整个集群将多出200%的存储空间的开销以及其他诸如网络带宽等的开销。然而,对于I/O相对较低的热数据集和cold数据集,在正常操作期间很少访问额外的块副本,仍然消耗与第一个副本相同的资源量。因此,一种自然的改进是使用EC来代替复制,它提供相同级别的容错,但存储空间要少得多。在典型的Erasure Cod.原创 2021-06-09 17:45:38 · 307 阅读 · 0 评论 -
HDFS 快照
概述HDFS 快照(Snapshots)是文件系统在特定时间点生成的只读备份。快照可以在文件系统的一个子分支或整个文件系统上生成。快照的常见使用场景就是数据的备份,以达到容错容灾的目的。快照的创建是瞬时的:复杂度为O(1)(不包含inode查找时间)。 仅当对快照进行修改时才使用额外的内存:内存使用空间复杂度是O(M),其中M是修改的文件/目录的数量。 DataNode里的数据块不会被复制:快照文件只对数据块,数据块的大小进行记录,不产生数据复制。 快照不会对常规HDFS操作产生负面影响:修改翻译 2020-12-22 15:52:58 · 677 阅读 · 0 评论 -
HDFS Shell指南
前言文件系统的shell包含了各种各样的类linux shell的命令,用户可借助这些命令直接与HDFS或Hadoop支持的其它文件系统进行交互(比如本地文件系统, WebHDFS, S3 FS等等)。调用FS shell的命令为:bin/hadoop fs <args>所有的文件系统shell命令都以路径URI为参数,URI格式:scheme://authority/path。比如对于HDFS来说,这里的scheme即为hdfs,对于本地文件系统,sheme就是file。sc翻译 2020-12-22 14:35:24 · 314 阅读 · 2 评论 -
DistCp
目录前言常用命令选项更新和覆盖不同HDFS版本间的复制MapReduce和副效应前言DistCp即distributed copy,分布式复制的意思,是集群间用于处理高I/O复制的工具。其底层基于MapReduce,因此具有分布式的能力,容错性以及对异常的监控和上报能力。它将文件和目录列表展开到映射任务的输入中,每个任务将复制源列表中指定文件的一个分区。本文的目的是描述新的DistCp的设计、它的新特性、它们的最佳使用以及与遗留实现的任何偏差。常用命令DistCp翻译 2020-12-18 15:31:40 · 1168 阅读 · 0 评论 -
Hadoop Archives
Hadoop archives是一种特殊格式的归档,一个归档往往映射到文件系统的目录,一个Hadoop archive通常是*.har的扩展文件。其映射的目录里面存放着元数据(形式如:_index, _masterindex)和数据(part-*)文件。_index文件指定了归档内各个分块文件的文件名和存放地址。1. 创建归档hadoop archive -archiveName name -p <parent> [-r <replication factor>] <翻译 2020-12-18 10:22:07 · 282 阅读 · 0 评论 -
搭建一个Hadoop集群
1. 目的本篇将详细介绍如何在几个节点乃至成百上千个节点上搭建和配置Hadoop集群。还未接触过Hadoop的朋友可参考上一篇博文的介绍,先尝试部署和使用单节点Hadoop。翻译 2020-12-11 15:17:07 · 323 阅读 · 0 评论 -
搭建一个单节点的Hadoop
1. 前言欢迎来到小可的Hadoop专栏,作为一个曾经的“四级狗”,在下定决心逐字逐句硬啃Apache Hadoop官方文档时,身心是处于“颤抖模式”的。忐忑不安也好,诚惶诚恐也罢,我还是决定出发了!记得刚入行大数据的时候,没有同行,没有良师,只有一个益友在远程遥控和打气。那是最艰难的日子--没有任何基础,Linux稀烂,搭建一个Hadoop伪分布式集群都花了半个月;Java稀烂,看懂一个word count程序要耗上半天时间;SQL稀烂,明明跟着教程都能理解各种JOIN,一到自己写就只会SELECT翻译 2020-12-09 17:20:36 · 886 阅读 · 1 评论
分享