初学Hadoop
文章平均质量分 73
初学者适合
Iiversse
不是卤蛋!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据仓库--数据分层(ETL、ODS、DW、APP、DIM)
一、数据加载层:ETL(Extract-Transform-Load)二、数据运营层:ODS(Operational Data Store)三、数据仓库层:DW(Data Warehouse) 1. 数据明细层:DWD(Data Warehouse Detail) 2. 数据中间层:DWM(Data WareHouse Middle) 3. 数据服务层:DWS(Data WareHouse Service)四、数据应用层:APP(Application)原创 2022-06-01 13:12:22 · 1151 阅读 · 1 评论 -
分布式资源管理与任务调度框架Yarn
1.概念说明Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者) 一种新的Hadoop资源管理器,一个通用资源管理系统 为上层提供统一的资源管理与任务调度及监控,提高了集群管理效率、资源使用率、数据共享效率2.特点特征资源管理与计算框架解耦设计,一个集群资源共享给上层各个计算框架,按需分配,大幅度提高资源利用率 运维成本显著下降,只需运维一个集群,同时运行满足多种业务需求的计算框架 集群内数据共享一致,数据不再需要集群间原创 2022-03-24 22:09:56 · 3083 阅读 · 0 评论 -
分布式计算框架Map/Reduce
1.概念说明MapReduce是一种编程模型,是面向大数据并行处理的计算模型、框架和平台MapReduce是一个基于集群的高性能并行计算平台。MapReduce是一个并行计算与运行的软件框架。MapReduce是一个并行程序设计模型与方法。2.特点特征特点:1.分布可靠,对数据集的操作分发给集群中的多个节点实现可靠性,每个节点周期性返回它完成的任务和最新的状态2.封装了实现细节,基于框架API编程,面向业务展开分布式编码3....原创 2022-03-24 22:03:37 · 675 阅读 · 0 评论 -
分布式文件存储系统HDFS
1.概念说明HDFS是Hadoop分布式文件系统2.特点特征1.高容错性和高可用性,硬件错误是常态而不是异常2.流式数据访问3.弹性存储,支持大规模数据集4.简单一致性原则5.移动计算而非移动数据6.协议和接口多样性7.多样的数据管理功能3.应用场景各大电信运营商 中大型互联网公司,如BAT、京东、乐视、美团等 金融银行保险类公司 各大云平台底层存储平台 其他本地系统无法承载存储能力的应用4.代码实现public class ReadFromHdf原创 2022-03-24 20:49:27 · 6226 阅读 · 0 评论 -
初识Hadoop
1.项目起源Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。2.所用版本目前Hadoop版本以Hadoop2.7.x为主,我们的课程选择Hadoop2.7.3。3.Hadoop核心组件与应用组件介绍 :HDFS:分布式海量数据存储功能Yarn:提供...原创 2022-03-24 18:46:57 · 2751 阅读 · 0 评论
分享