
hadoop权威指南
玩玩大数据
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop权威指南笔记-第1章-初识hadoop
1.1 数据数据 数据越来越多 1.2 数据的存储和分析 硬盘存储容量不断提升,也变得便宜。但是访问速度并没有得到提升。 1990年一块硬盘可以存储1370m,传输速度是4.4m/s。 五分钟可以遍历完 2010年一块硬盘 1T,速度是100m/s,需要 1024*1024/100 约等于10240秒=3个小时左右 于是我们考虑对多个硬盘并行读写,以加快速度。但是遇到...原创 2019-08-27 17:08:00 · 432 阅读 · 0 评论 -
Hadoop权威指南笔记-第2章-关于MapReduce
2.1 气象数据集 没啥可读的,就是说有一组数据,然后呢,要从这些数据里找到每一年的最高气温 2.2 使用unix工具来分析数据 也没啥可看的,就是说可以用awk工具来处理这个数据,要运行42分钟 2.3使用hadoop来分析数据 2.3.1 map和reduce 敲黑板啦,这个重点!! 看上面这个图, map阶段:入参就是一行一行的原始数据,然后经过map之后,会输出一个...原创 2019-08-28 12:46:27 · 217 阅读 · 0 评论 -
Hadoop权威指南笔记-第3章-hdfs
3.1 hdfs的设计 超大文件:几百M 到几百T ,甚至是T的数据 流式数据访问: 一次写入,多次读取,每次读取都是全量的数据 商用硬件:允许机器硬件故障 低时间延迟: 不适合,可以考虑HBase 大量小文件:不好,由于元数据保存在内存中,每个文件/目录/数据块 在内存中大约占150字节。 如果有一百W个小文件,每个文件一个数据块,那么就要 100,0000*2*150 B...原创 2019-08-30 16:48:34 · 282 阅读 · 0 评论 -
Hadoop权威指南笔记-第4章-关于YARN
yarn最初是hadoop2.x用于改善mapReduce的,但是可以支持其他分布式应用。 yarn提供api来请求和使用集群的资源,但是用户不直接使用这些api,而是使用下图中 mr spark tez等程序会架构在yarn之上。 4.1 剖析 yarn应用的运行机制 2个常驻进程: resourceManager: 总经理,管理整个集群的资源 nodeManager: ...原创 2019-09-03 12:55:17 · 319 阅读 · 0 评论 -
Hadoop权威指南笔记-第5章-hadoop的IO操作
目录 5.1 数据完整性 5.1.1 hdfs数据完整性 5.1.2 LocalFileSystem 5.1.3 CheckSumFileSystem 5.2 压缩 5.2.1 Codec 5.2.2 压缩和输入分片 5.2.3 在MapReduce中使用压缩 5.3 序列化 5.3.1 Writable接口 5.3.2Writable类 5.3.3 实现定制的wr...原创 2019-09-11 08:50:12 · 511 阅读 · 0 评论