
Hadoop
hadoop
奈何@
Instead of admitting that the truth of "let it be" is to readily accept any kind of outcome after making full efforts rather than to do nothing at the every beginning. We would rather take "Let it be" as an excuse to evade the path of throns in our life.
展开
-
HDFS(Hadoop Distribute File System)
一、基本概念 一句话概括:HDFS是hadoop分布式文件系统,作用是存储大数据文件,是hadoop领域最基础的部分。二、HDFS的重要特性 一群屌丝机组成高富帅 1、主从架构 namenode作为master负责管理元数据,datanode作为从节点存储block块数据 主从:通常是一主多从,主干活,从也干活,负责的分工不同 主备:通...原创 2019-10-24 18:50:23 · 457 阅读 · 0 评论 -
Hadoop生态圈---flume
一、Flume基本介绍1.1 什么是flume 说白了flume就是一个采集数据的软件,是cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件; flume的核心就是把数据从数据源(source)收集过来,为了保证传输的成功性,会先缓存数据(channel),待数据到达目的地(sink)的时候,再删除自己缓存的数据; f...原创 2019-09-24 00:44:42 · 271 阅读 · 0 评论 -
yarn运行机制
一、yarn运行机制yarn是一种全新的 Hadoop资源管理器,他是一个通用资源管理平台和调度平台,可为上层应用提供统一的资源管理和调度,mapreduce等运算程序则相当于运行于操作紫铜上的应用程序,yarn为这些程序提供运算所需的资源内存、cpu()yarn并不清楚用户提交的程序的运行机制 yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源) yar...原创 2019-09-22 22:00:57 · 173 阅读 · 0 评论 -
Hadoop生态圈---azkaban--sqoop
一、azkaban sqoop基本介绍azkaban的介绍azkaban web server : 提供一个web的UI管理界面: 创建项目, 执行任务, 监控任务流程,,azkaban executor server: 执行器, 用来执行web ui提交的工作流的任务mysql数据库: 存储元数据信息产生背景:存在依赖关系,周期性执行oozie和azka...原创 2019-09-28 17:10:27 · 332 阅读 · 0 评论 -
Zookeeper
一、介绍01) 分布式协调服务的开源框架,主要解决分布式集群中应用系统间的一致性问题. 02) 小文件的存储系统(数据存放在内存中,数据量有大小限制), 以树形结构进行组织数据 03) 可以维护和监控数据状态的变化,通过监控数据状态的变化,达到分布式系统中集群管理的效果. 04) 分布式程序: 可以多台服务器部署(可靠 稳定) ...原创 2019-10-07 21:34:50 · 90 阅读 · 0 评论