
hadoop
文章平均质量分 94
CoderBoom
on the way
展开
-
大数据----【HDFS】
HDFS入门1. HDFS基本概念1.1 HDFS介绍HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。分布式文件系统解决的问题就是大数据存储。1.2 HDFS设计目标硬件故障是常态 , 因此故障的检测和自动快速恢复是HDFS的黑心架构目标数据访问的高吞吐量支持大文件对文件的要求是 write-one-read...原创 2018-11-15 23:10:57 · 249 阅读 · 0 评论 -
大数据----【MapReduce】
MapReduce入门1. MapReduce计算模型介绍1.1 MapReduce思想MapReduce的思想核心是分而治之 , 适用于大量复杂的任务处理场景(大规模数据处理场景) .没有依赖关系 可以拆分的复杂任务适用之。分 局部处理阶段合 全局汇总阶段Map负责"分" , 将没有依赖关系的数据进行适当的拆分 , 并行计算Reduce负责"合" , 即对map阶段的结果...原创 2018-11-15 23:01:06 · 296 阅读 · 0 评论 -
HDFS----【文件的上传即下载流程详解】
HDFS上传文件流程文件上传流程图如下 :首先 , HDFS选用的是每启动一个线程 , 就传递一个块 , 然后接收到第一个块后的机器复制给其他机器 .首先我们知道namenode的职责 :管理整个文件系统的元数据 ( 目录树 文件和块对应信息 , dn信息)响应整个客户端的所有请求 hdfs://node-1:9000上传文件的流程首先hdfs客户端通过RPC调用向nn发...原创 2018-11-15 23:14:25 · 3653 阅读 · 0 评论 -
大数据----【Hadoop基础知识、Shell定时采集数据】
1. NameNode概述NameNode是HDFS的核心NameNode也称为MasterNameNode仅存储HDFS的元数据 : 文件系统中所有文件的目录树 , 并跟踪整个集群的文件NameNode不存储实际数据或数据集 , 数据本身实际存储在DataNode中NameNode知道任何文件的快列表及其位置NameNode并不持久化存储每个文件中各个块所在的datanode的位置...原创 2018-11-15 23:19:18 · 813 阅读 · 0 评论 -
大数据----【Hadoop集群搭建及Hadoop基础知识及测试】
1. Hadoop基础1.1 Hadoop介绍 Hadoop是 Apache 旗下的一个用 java 语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。狭义上 : Hadoop是处理大数据的软件平台HDFS(分布式文件系统) : 解决海量数据存储YARN(作业调度和集群资源管理的框架) : 解决资源任...原创 2018-11-19 00:00:28 · 438 阅读 · 0 评论 -
Hadoop----【基础知识、集群安装、常用Shell命令】
1. Hadoop基础1.1 Hadoop介绍 Hadoop是 Apache 旗下的一个用 java 语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。狭义上 : Hadoop是处理大数据的软件平台HDFS(分布式文件系统) : 解决海量数据存储YARN(作业调度和集群资源管理的框架) : 解决资源任...原创 2018-11-14 22:48:44 · 313 阅读 · 0 评论 -
MapReduce(深入)---案例之用户上行流量 下行流量 总流量倒序 按省份分区
1. MapReduce的输入和输出MapReduce执行流程图详细图解如下maptask通过自带的TextInputFormat将数据按照一行一行的读取 , 用每一行的起始偏移量作为k , 每行的内容作为value构成<k1,v1>键值对 , 在map中经过业务逻辑 , 对数据进行的"分" , 形成新的键值对<k2,v2>传递给reduce ; reduce...原创 2018-11-17 22:49:00 · 1320 阅读 · 0 评论