- 博客(4)
- 收藏
- 关注
原创 Hadoop权威指南读书笔记(三)——认识HDFS
一、什么是HDFS尽管磁盘容量的发展速度很快,但单台物理机的存储能力面对海量数据是远远不够的。分布式的存储是大数据的基石。管理跨多台计算机存储的数据/文件,是分布式文件系统角色的定位。Hadoop的分布式文件系统是HDFS,以流式数据访问模式(在后面对HDFS读取/写入文件进行剖析的时候会具体阐述) 来存储超大的文件。分布式文件系统,其主要的 几个难点在于如何容忍节点故障(高可用性–HA)、保...
2020-04-19 23:05:13
249
原创 Hadoop权威指南读书笔记(二)—— MapReduce的Hello World(气温分析实例demo)
书中第二章以一个气温分析的实例,来帮助读者初步了解MapReduce的编程模式和一些相关的接口。例子非常简单,大概可以理解为利用MapReduce来实现对各地一段年份区间内的天气数据来求得每年的最高气温。通过该例子,基本可以了解Map、Reduce函数基本的角色,相关接口的使用、以及如何将写好的程序打包放到集群运行。一、环境搭建当然先决条件是配置Hadoop开发环境(我这里安装的是2.10)...
2020-04-08 19:52:05
336
原创 Hadoop权威指南读书笔记(二)—— MapReduce初理解
一、本章概览MapReduce可以看作是Hadoop中的分布式计算框架,是用于批量数据离线处理的编程模型。基于MapReduce的并行数据处理是Hadoop能够支撑大数据计算的核心。书中这一章是以一个实际的例子对MapReduce的过程、机制还有Hadoop提供的相关编程模型及借口做了简单的介绍,内容即非常易懂,也能让读者初步地宏观了解MapReduce的计算原理。其中很多细节的地方书中并没有...
2020-04-06 22:17:38
281
原创 Hadoop权威指南读书笔记(一)——RDB为什么不适合MapReduce
大数据组件原理及源码系列Hadoop权威指南读书笔记(一)——RDB为什么不适合MapReduce最近决定开始用博客记录自己的学习之路,有两点希望:一是希望以输出为指向的学习能够促使自己加深对知识的理解;二是希望能够将自己的一些见解分享给需要的人。好了,铺垫的话就不多说了,早点进入正题为宜。由于很多知识是初学,有理解得不到位/错误的地方,欢迎指出/讨论。Hadoop权威指南第一章内容总结第...
2020-04-01 00:13:15
270
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅