
大数据
文章平均质量分 90
陌上花开可缓缓归矣___
这个世界有两个我,一个在黑暗中醒着,一个在光明中睡着。
展开
-
[学习笔记]初始Hadoop
Hadoop的两个核心组成: 1、HDFS:分布式文件系统,存储海量的数据。 2、MapReduce:并行处理框架,实现任务分解和调度。原创 2017-05-31 17:45:09 · 470 阅读 · 0 评论 -
[学习笔记]Hadoop安装_配置
需要一个Linux系统,可以采用虚拟机,也可以租用云主机安装JDK环境 在命令行输入javac,看是否已经有JAVA环境,没有则继续按照提示安装JDK环境,安装完JDK之后,在命令行输入 vim /etc/profile ,进行设置环境变量。 javac验证时候有JAVA环境: 配置环境变量:配置的变量包含JAVA_HOME、CLASSPATH、PATH,按照自己的安装目录进行配置原创 2017-05-31 21:49:36 · 478 阅读 · 0 评论 -
[学习笔记]Hadoop核心之初始HDFS
Hadoop核心之HDFS在看HDFS的设计架构之前,先看一些基本概念: 基本概念块(Block)NameNodeDataNode 块逻辑上是一个固定大小的存储单元,HDFS的文件被分成块进行存储,HDFS块的默认大小为64MB,文件在传输过来的时候,被分成块进行存储,块是文件存储处理的逻辑单元,做软件的备份查找,也都是按照块来进行处理的 HDFS中有两类节点,分别为: NameNode原创 2017-06-01 11:17:56 · 714 阅读 · 0 评论 -
[学习笔记]Hadoop核心之初始MapReduce
MapReduce原理 MapReduce采用的是分而治之的思想,将一个打的任务分成多个小的子任务(称之为map),并行执行后,合并结果(称之为reduce)。 假如现在有一千副扑克牌没有大小王,然后将他们混在一起,其中有一副牌少了一张,所以总共只有51999张牌,现在我们要找出来缺少的是哪张牌。 我们可以这样来做: 首先,把牌大致分一下 牌很多,可以随机的分下,比如现在将原创 2017-06-02 09:29:50 · 636 阅读 · 0 评论