
Hadoop(HDFS、MapReduce)
文章平均质量分 80
Hadoop
plenilune-望月
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop-HDFS(十三) Hadoop 3.x 新特性( 了解)
13 Hadoop 3.x 新特性( 了解) 1、将默认的最低 jdk 从 7 升级到 8 2、纠删码可以将 3 倍副本占据的空间压缩到 1.5 倍,并保持 3 倍副本的容错。由于在读取数据的时候需要进行额外的计算,用于存储使用不频繁的数据 3、通过扩展 YARN 的资源类型,支持 CPU 和内存之外的其他资源,如 GPU、FPGA、软件许可证、本地存储等。 4、重写了 hadoop 中的 shell 脚本,修复了很多长期存在的 bug 并添加了新特性。有一些改进兼容老版本,有一些不兼容。 5、.原创 2021-01-19 10:04:22 · 541 阅读 · 0 评论 -
Hadoop-HDFS(十二) java 客户端操作 HDFS
12 java 客户端操作 HDFS 12.1 windows 上部署 hadoop 包 1. 部署包 win 版本,解压 hadoop-2.6.5-win10x64-1809.tar.gz 到 D:\devsoft目录下。 2. 将 widows 版 本 hadoop-2.6.5/bin/hadoop.dll 、 winutils.exe 放 到 c:/Windows/System32 下 3. lib 整合 $HADOOP_PREFIX/share/hadoop/{common,hdf...原创 2021-01-18 19:41:34 · 208 阅读 · 0 评论 -
Hadoop-HDFS(十一) Hadoop NameNode HA 高可用
11 Hadoop NameNode HA 11.1 概述 HDFS 2.x 解决 HDFS 1.0 中单点故障和内存受限问题,联邦 HA HDFS2.x 中 Federation 和 HA 分离,HA 只能有两个 NameNode 解决单点故障 HDFS HA:通过主备 NameNode 解决 如果主 NameNode 发生故障,则切换到备 NameNode 上。 解决内存受限问题 HDFS Federation(联邦);水平扩展,支持多个 NameNode; (1)所有 NameN.原创 2021-01-18 19:07:07 · 524 阅读 · 0 评论 -
Hadoop-HDFS(十) Hadoop Federation(了解)联邦
10 Hadoop Federation (了解)联邦 10.1 NameNode 需要多少内存 问题:NameNode 需要多大的内存? 业界看法:1GB 内存放 1,000,000block 元数据。 200 个节点的集群中每个节点有 24TB 存储空间,block 大小为 128MB,block 复制因子为 3,能存储大概 12500,000 个 block(或更多):200×24,000,000MB/(128MB×3)。此时,NameNode 内存大概需要 12.5GB。 5000 个节.原创 2021-01-18 17:37:46 · 218 阅读 · 0 评论 -
Hadoop-HDFS(七) hadoop 的安全模式
7 hadoop 的安全模式 7.1 工作流程( 理解) 1. 启动 NameNode,NameNode 加载 fsimage 到内存,对内存数据执行 edits log 日志中的事务操作。 2. 文件系统元数据内存镜像加载完毕,进行 fsimage 和 edits log 日志的合并,并创建新的 fsimage 文件和一个空的 edits log 日志文件。 3. NameNode 等待 DataNode 上传 block 列表信息,直到副本数满足最小副本条件。 4. 当满足了最小副本条件,再.原创 2021-01-18 16:38:53 · 341 阅读 · 0 评论 -
Hadoop-HDFS(五、六) 数据块副本放置策略、HDFS 的权限 (了解)
5 数据块副本放置策略 Block 的副本放置策略 第一个副本:放置在上传文件的 DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。 第二个副本:放置在于第一个副本不同的机架的节点上。 第三个副本:与第二个副本相同机架的节点。 更多副本:随机节点 源代码: 6 HDFS 的权限 (了解) 1、每个文件和目录都和一个拥有者和组相关联。 2、文件或者目录对与拥有者、同组用户和其他用户拥有独立的权限。 3、对于一个文件,r 表示读取的权限,w 表示写或者追加的权限。..原创 2021-01-18 16:27:55 · 511 阅读 · 0 评论 -
Hadoop-HDFS(四) HDFS 角色分析
4 HDFS 角色分析 4.1NameNode NameNode 管理文件系统的命名空间 1. 文件和目录的元数据:(运行时,元数据放内存) 文件的 block 副本个数 修改和访问的时间 访问权限 block 大小以及组成文件的 block 信息列表 2. 以两种方式在 NameNode 本地进行持久化: 命名空间镜像文件(fsimage)和编辑日志(edits log)。 3. fsimage 文件不记录每个 block 所在的 DataN...原创 2021-01-18 16:20:14 · 552 阅读 · 0 评论 -
Hadoop-HDFS(三) HDFS 架构
3 HDFS 架构 3.1 前提和设计目标 1. 硬件错误 a) 硬件错误是常态而不是异常。 b) HDFS 可能由成百上千的服务器所构成,单机故障概率的存在意味着总有一部分服务器不工作的。 c) 错误检测和快速自动恢复是 HDFS 最核心架构目标。 2. 流式数据访问 a) 运行在 HDFS 上的应用需要流式访问它们的数据集。 b) HDFS 的设计重点是批处理,而不是交互处理。是高吞吐量而不是低延迟...原创 2021-01-18 15:44:23 · 212 阅读 · 1 评论 -
Hadoop-HDFS(二)hadoop 起源
2 hadoop 起源 2.1 发展历史 Doug Cutting 1. 2002 年10月,Doug Cutting 和Mike Cafarella创建了开源网页爬虫项目Nutch。 2. 2003 年 10 月,Google 发表 Google File System 论文。 3. 2004 年 7 月,Doug Cutting 和 Mike Cafarella 在 Nutch 中实现了类似 ...原创 2021-01-18 15:22:44 · 840 阅读 · 0 评论 -
Hadoop-HDFS(一) 1T 文件操作的思考( 理解)
1T 文件操作的思考( 理解) 1. 分治思想引入案例 2. 单机处理大数据的问题 3. 集群分布式处理大数据 4. 集群分布式处理大数据优劣的辩证 1.1 分治 思想引入案例 1. 十万个元素(单词)需要存储,如何存储? 2. 如果想查找某一个元素,最简单的遍历方式的复杂度是多少? 3. 如果我们期望复杂度是 O(4)呢? • 分而治之的思想非常重要,常见于以下技术: 1. Redis 集群 2. Hadoop 3. Hbase 4. ElasticSearch 1..原创 2021-01-18 15:07:46 · 740 阅读 · 0 评论 -
Hadoop-HDFS(九)HDFS 完全分布式搭建
9.1 规划 node1 node2 node3 node4 NameNode SecondaryNameNode DataNode-1 DataNode-2 DataNode-3 1) 基础设置 a) 网络 b) Ssh: 哪个节点将公钥分发,成为启动 start-dfs.sh 脚本的主机和这个主机上的进程没有关系 c) Jdk 2) 应用搭建 a) 部署&配置 b)...原创 2021-01-14 20:45:20 · 136 阅读 · 0 评论