
大数据
文章平均质量分 87
五分钟学大数据
公众号:五分钟学大数据
展开
-
数据仓库之数据质量建设
根据当数据质量不满足完整性、规范性、一致性、准确性、唯一性、及时性时,对业务的影响程度大小来划分数据的资产等级。毁灭性:数据一旦出错,会引起巨大的资产损失,面临重大收益受损等。标记为 L1全局性:数据用于集团业务、企业级效果评估和重要决策任务等。标记为 L2局部性:数据用于某个业务线的日常运营、分析报告等,如果出现问题会给该业务线造成一定的影响或影响其工作效率。标记为 L3一般性:数据用于日常数据分析,出现问题的带来的影响很小。标记为 L4未知性质:无法追溯数据的应用场景。标记为 Lx。原创 2024-12-15 18:45:28 · 1670 阅读 · 0 评论 -
大数据之数据治理体系全面指南
数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集存储计算和使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。下面我将结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑。原创 2024-06-22 19:39:04 · 1250 阅读 · 0 评论 -
数仓建设中最常用模型--Kimball维度建模详解
数仓建模首推书籍《数据仓库工具箱:维度建模权威指南》,。先来介绍下此书,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术。面向数仓和BI设计人员,书中涉及到的内容非常广泛,围绕一系列的商业场景或案例研究进行组织。强烈建议买一本实体书研究,反复通读全书至少三遍以上,你的技术将会有质的飞跃。数仓工具箱。原创 2023-07-09 19:08:34 · 977 阅读 · 0 评论 -
2023版最新最强大数据面试宝典
2023年最新大数据面试宝典,目前已更新到第4版,广受好评!原创 2023-02-17 09:41:54 · 5017 阅读 · 0 评论 -
详解HBase读写性能优化
一、HBase 读优化1. HBase客户端优化和大多数系统一样,客户端作为业务读写的入口,姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法,这里一般需要关注四个问题:1) scan缓存是否设置合理?优化原理:在解释这个问题之前,首先需要解释什么是scan缓存,通常来讲一次scan会返回大量数据,因此客户端发起一次scan请求,实际并不会一次就将所有数据加载到本地,而是分成多次RPC请求进行加载,这样设计一方面是因为大量数据请求可能会导致网络带宽严重消耗进而影响其他业原创 2022-05-10 18:49:18 · 1486 阅读 · 0 评论 -
Spark内存管理详解
本文目录: Spark Shuffle进化史 堆内和堆外内存规划 内存空间分配 存储内存管理 执行内存管理 上百本优质大数据书籍,附必读清单(大数据宝藏)前言Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基..原创 2022-04-12 15:51:52 · 723 阅读 · 1 评论 -
最新大厂数据湖面试题,知识点总结
本文是一篇数据湖的面试题,同时也是数据湖知识点的讲解目录:一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别七、为什么要做数据湖?区别在于?八、数据湖挑战九、湖仓一体十、目前有哪些开源数据湖组件十一、三大数据湖组件对比一、什么是数据湖本文首发于公众号【五分钟学大数据】,点击获取:数仓建设保姆级教程数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意原创 2022-03-31 21:11:54 · 1280 阅读 · 2 评论 -
长文详解HiveSQL执行计划
本文目录:一、前言二、SQL的执行计划 explain 的用法 explain 的使用场景 案例一:join 语句会过滤 null 的值吗? 案例二:group by 分组语句会进行排序吗? 案例三:哪条sql执行效率高呢? 案例四:定位产生数据倾斜的代码段 explain dependency的用法 案例一:识别看似等价的代码 案例二:识别SQL读取数据范围的差别 explain authorization 的用法 本文首发于公众号【五分钟学大数据原创 2022-03-22 10:14:19 · 1830 阅读 · 3 评论 -
50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 下
数仓建设保姆级教程原创 2022-03-02 17:37:21 · 6354 阅读 · 10 评论 -
万字详解数据仓库、数据湖、数据中台和湖仓一体
本文目录:一、前言二、概念解析 数据仓库 数据湖 数据中台 三、具体区别 数据仓库 VS 数据湖 数据仓库 VS 数据中台 总结 四、湖仓一体 目前数据存储方案 Data Lakehouse(湖仓一体) 一、前言数字化转型浪潮卷起各种新老概念满天飞,数据湖、数据仓库、数据中台轮番在朋友圈刷屏,有人说“数据中台算个啥,数据湖才是趋势”,有人说“再见了数据湖、数据仓库,数据中台已成气候”……企业还没推开数字化大门,先被各原创 2022-02-22 09:32:49 · 7396 阅读 · 12 评论 -
2022年最强大数据面试宝典(全文50000字)
此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待复习大数据面试题,看这一套就够了!本文目录:一、Hadoop二、Hive三、Spark四、Kafka五、HBase六、Flink七、数仓业务方面八、算法本文PDF版文档预览如下点击获取本文PDF版:2022年最强大数据面试宝典PDF版HadoopHadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapRedu.原创 2022-02-16 14:17:59 · 7374 阅读 · 12 评论 -
详解数据中台的底层架构逻辑
数据中台到底是什么,几年过去了,也一直众说纷纭。笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业 务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋能加速。但以上流程的实现,需要有对应的系统与产品作为支撑,那么基础的数据中台到底应该由哪些系统或者产品组成?这里我们可以先来看一下几个企业的数据中台架构。可以看出,虽然每个企业由于自身业务原创 2022-01-11 09:30:35 · 444 阅读 · 0 评论 -
Hive SQL优化思路
Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。优化的核心思想是: 减少数据量(例如分区、列剪裁) 避免数据倾斜(例如加参数、Key打散) 避免全表扫描(例如on添加加上分区等) 减少job数(例如相同的on条件的join放在一起作为一个任务) HQL语句优化1. 使用分区剪裁、列剪裁在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤。原创 2021-12-28 09:12:34 · 1115 阅读 · 2 评论 -
最强最全面的大数据SQL经典面试题(由31位小伙伴共同协作完成)
本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦!注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。因内容较多,带目录的PDF查看是比较方便的:最强最全面的大数据SQL经典面试题完整PDF版一、行列转换描述:表中记录了各年份各部门的平均绩效考核成绩。表名:t1表结构:a--年份..原创 2021-12-23 15:56:41 · 2942 阅读 · 8 评论 -
数仓建设保姆级教程,离线和实时一网打尽(理论+实战)
本文大纲:因内容较多,带目录的PDF查看是比较方便的,点击下方链接获取完整PDF版:数仓建设保姆级教程PDF文档一、数仓基本概念1. 数据仓库架构我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种被普遍接受的架构定义是指系统的一个或多个结构。结构中包括软件的构建(构建是指软件的设计与实现),构建的外部可以看到属性以及它们之间的相互关系。这里参考此定义,把数据仓库架构理解成构成数据仓库的组原创 2021-12-14 10:46:30 · 3266 阅读 · 8 评论 -
万字详解 Spark 数据倾斜及解决方案
本文目录:一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾斜的key的数据分布情况八、数据倾斜的解决方案: 解决方案一:使用 Hive ETL 预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两阶段聚合(局部聚合+全局聚合) 解决方案五:将reduce join转载 2021-12-06 10:58:06 · 1617 阅读 · 0 评论 -
最强最全面的Hive SQL开发指南,超四万字全面解析
本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些!本文非常适合PDF版本查看,效果非常好,本文PDF链接:最全面Hive SQL开发指南PDF版http://mp.weixin.qq.com/s?__biz=Mzg2MzU2MDYzOA==&mid=100007677&idx=1&sn=613890e9387eefd94fb83982c3ca55b0&am.原创 2021-11-30 14:32:05 · 1902 阅读 · 9 评论 -
大数据面试吹牛草稿V2.0
大数据面试:吹牛之前先打个草稿!原创 2021-11-24 11:34:41 · 8922 阅读 · 19 评论 -
最强最全面的数仓建设规范指南
目录一、数据模型架构原则1. 数仓分层原则2. 主题域划分原则3. 数据模型设计原则二、数仓公共开发规范1. 层次调用规范2. 数据类型规范3. 数据冗余规范4. NULL字段处理规范5. 指标口径规范6. 数据表处理规范7. 表的生命周期管理三、数仓各层开发规范1. ODS层设计规范2. 公共维度层设计规范3. DWD明细层设计规范4. DWS公共汇总层设计规范四、数仓命名规范1. 词根设计规范2. 表命名规范3. 指标命原创 2021-11-11 12:05:33 · 4560 阅读 · 18 评论 -
四万字32图,Kafka知识体系保姆级教程宝典
目录一、消息队列1. 消息队列的介绍2. 消息队列的应用场景3. 消息队列的两种模式4. 常用的消息队列介绍5. Pulsar6. Kafka与Pulsar对比7. 其他消息队列与Kafka对比二、Kafka基础1. kafka的基本介绍2. kafka的好处3. 分布式的发布与订阅系统4. kafka的主要应用场景三、Kafka架构及组件1. kafka架构2. Kafka 主要组件四、Kafka集群操作1. 创建topic2.原创 2021-10-27 14:12:34 · 2190 阅读 · 8 评论 -
Hadoop MapReduce 保姆级吐血宝典,学习与面试必读此文!
Hadoop 涉及的知识点如下图所示,本文将逐一讲解:本文档参考了关于 Hadoop 的官网及其他众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不清晰的图片及黑白图片进行重新绘制成了高清彩图。目前企业应用较多的是Hadoop2.x,所以本文是以Hadoop2.x为主,对于Hadoop3.x新增的内容会进行说明!二、MapReduce1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用原创 2021-10-25 11:10:26 · 1246 阅读 · 10 评论 -
五万字 | 耗时一个月,整理出这份Hadoop吐血宝典
本文目录:一、HDFS二、MapReduce三、Yarn四、Hadoop3.x 新特性五、Hadoop 大厂面试真题解析Hadoop 涉及的知识点如下图所示,本文将逐一讲解:本文档参考了关于 Hadoop 的官网及其他众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不清晰的图片及黑白图片进行重新绘制成了高清彩图。目前企业应用较多的是Hadoop2.x,所以本文是以Hadoop2.x为主,对于Hadoop3.x新增的内容会进行说明!一、HDFS1. HDFS概述H原创 2021-10-22 09:42:41 · 1250 阅读 · 10 评论 -
写给初学者,一文搞懂大数据学习、岗位、面试及简历
最近有公众号读者私聊我时发现有不少应届生和初学者,他们在大数据怎么学,以及大数据怎么面试,简历怎么写等方面有很大的困扰,今天我们就来谈谈关于大数据的一些事。写在前面:每个人的学习方法可能不一样,只有找到适合自己的才是最好的,以下这些只是我在学习大数据时的一些总结及经验,有不全面的地方还请各位大佬多包涵,互相学习,共同进步,非常感谢!我之前在知乎回答过类似的问题,有人问大数据工程师的日常工作内容是干嘛?,我当时看到之后就随意回答了下,先说了下大数据日常干嘛,然后又说了下怎么准备大数据的面试,怎么学原创 2021-10-14 10:50:58 · 3881 阅读 · 8 评论 -
美团数据平台及数仓建设实践,超十万字总结
美团技术团队的博客质量非常高,里面有许多关于大数据的文章,具有很大的参考价值。美团技术博客地址:https://tech.meituan.com但是博客功能简陋,没有基本的搜索功能,这对于我们查找相关文章非常不易。所以我把美团技术团队博客上关于大数据的文章,并且质量非常高的文章给整理了下来,按照离线数仓,实时数仓,数据平台,数据治理,数据分析等分类。组成了一本高质量的《美团数据平台及数仓建设实践》超全文档!整理的文档结构非常清晰,排版非常简洁,非常有利于我们查找及阅读。文档总共2原创 2021-10-13 16:02:46 · 3725 阅读 · 12 评论 -
字节跳动大数据开发面试题-附答案
此面试题来自牛客网友分享的字节跳动应届一面,面试时长一小时。网友情况:985 本硕。参考答案由本公众号提供。如有错误,欢迎指正!以下为面试过程中提问,岗位为大数据开发: 自我介绍+项目介绍 为什么用 kafka、sparkstreaming、hbase?有什么替代方案吗? 聊聊你觉得大数据的整个体系? 你看过 hdfs 源码?nn 的高可用说一下 zookeeper 简单介绍一下,为什么要用 zk?zk 的架构?zab? hbase 的...原创 2021-09-29 14:27:04 · 4030 阅读 · 5 评论 -
数据仓库之数据质量建设(深度好文)
数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的治理是什么?当然是数据质量治理,因为数据质量是数据分析结论有效性和准确性的基础,也是这一切的前提。所以如何保障数据质量,确保数据可用性是数据仓库建设中不容忽视的环节。本文首发于公众号【五分钟学大数据】,完整的数据治理及数仓建设文章公众号上都有数据质量涉及的范围也很广,贯穿数仓的整个生命周期,从数原创 2021-09-24 11:24:38 · 5208 阅读 · 32 评论 -
Flink保姆级教程,超全五万字,学习与面试收藏这一篇就够了
本文目录:一、Flink简介二、Flink 部署及启动三、Flink 运行架构四、Flink 算子大全五、流处理中的 Time 与 Window六、Flink 状态管理七、Flink 容错八、Flink SQL九、Flink CEP十、Flink CDC十一、基于 Flink 构建全场景实时数仓十二、Flink 大厂面试题Flink 涉及的知识点如下图所示,本文将逐一讲解:本文档参考了Flink 的官网及其他众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不.原创 2021-09-16 17:41:43 · 89485 阅读 · 31 评论 -
推荐上百本优质大数据书籍,附必读清单(大数据宝藏)
历时多年整理,每看到一本好书都会收藏下来,到现在一看竟然有100多本了这些书籍确实是大数据的宝藏,从大数据入门到实战,深入原理,大数据架构等全部都有从 hadoop,hive,spark,flink,kafka,hbase,kudu,clickhouse,数仓建模,大数据算法,机器学习,数据科学,jvm虚拟机,数学思维,5G时代等等全都有以下为书籍截图:书籍太多,所以先推荐几本必读书籍(我读过的认为比较好的,其他也有很好的只是我还没读,所以没写)Hadoop+Spark大原创 2021-09-09 13:58:57 · 6716 阅读 · 5 评论 -
五万字 | Spark吐血整理,学习与面试收藏这篇就够了!
Spark超全总结文档目录如下:Spark涉及的知识点如下图所示,本文将逐一讲解:本文档参考了关于 Spark 的众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不清晰的图片及黑白图片进行重新绘制成了高清彩图。本文超长,获取本文完整PDF文档,带目录超全总结,请扫码关注公众号【五分钟学大数据】,后台发送:spark pdf,即可下载带目录的完整版spark文档:正文开始:一、Spark 基础1. 激动人心的 Spark 发展史大数据、人.原创 2021-08-26 18:40:32 · 4388 阅读 · 19 评论 -
五万字 | Hive知识体系保姆级教程
文档目录如下:Hive涉及的知识点如下图所示,本文将逐一讲解:本文较长,获取本文完整PDF文档,请扫码关注公众号【五分钟学大数据】,后台发送:hive pdf,即可下载带目录的完整版Hive文档:正文开始:一. Hive概览1.1 hive的简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供.原创 2021-08-23 10:45:42 · 3853 阅读 · 23 评论 -
面试常问-Spark的两种核心Shuffle详解
在 MapReduce 框架中, Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁, Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O,因此 Shuffle 性能的高低直接影响整个程序的性能。 Spark 也有 Map 阶段和 Reduce 阶段,因此也会出现 Shuffle 。Spark ShuffleSpark Shuffle 分为两种:一种是基于 Hash 的 Shuffle;另一种是基于 Sort 的原创 2021-08-16 14:12:25 · 862 阅读 · 1 评论 -
关于数仓建设及数据治理的超全概括
本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读!本文首发于公众号【五分钟学大数据】在谈数仓之前,先来看下面几个问题:数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一.原创 2021-07-22 15:32:07 · 2211 阅读 · 10 评论 -
三万字,Spark学习笔记
Spark 基础Spark特性Spark使用简练优雅的Scala语言编写,基于Scala提供了交互式编程体验,同时提供多种方便易用的API。Spark遵循“一个软件栈满足不同应用场景”的设计理念,逐渐形成了一套完整的生态系统(包括 Spark提供内存计算框架、SQL即席查询(Spark SQL)、流式计算(Spark Streaming)、机器学习(MLlib)、图计算(Graph X)等),Spark可以部署在yarn资源管理器上,提供一站式大数据解决方案,可以同时支持批处理、流处理、交互式查..翻译 2021-07-11 16:51:10 · 560 阅读 · 3 评论 -
Flink学习笔记
Flink 基础Flink特性流式计算是大数据计算的痛点,第1代实时计算引擎Storm对Exactly Once 语义和窗口支持较弱,使用的场景有限且无法支持高吞吐计算;Spark Streaming 采用“微批处理”模拟流计算,在窗口设置很小的场景中有性能瓶颈,Spark 本身也在尝试连续执行模式(Continuous Processing),但进展缓慢。Flink是一个低延迟、高吞吐的实时计算引擎,其利用分布式一致性快照实现检查点容错机制,并实现了更好的状态管理,Flink可在毫秒级的延迟下转载 2021-07-11 16:45:49 · 368 阅读 · 0 评论 -
万字长文详解HiveSQL执行计划
Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。可以说执行计划是打开SQL优化大门的一把钥匙。要想学SQL执行计划,就需要学习查看执行计划的命令:explain,在查询语句的SQL前面加上关键字explain是查看执行计划的基本方法。学会explain,能够给我们工作中使用hive带来极大的便利!查看SQL的执行计划Hive提供的执行计划目前可以查原创 2021-07-11 16:42:51 · 613 阅读 · 0 评论 -
一文读懂大数据实时计算
本文分为四个章节介绍实时计算,第一节介绍实时计算出现的原因及概念;第二节介绍实时计算的应用场景;第三节介绍实时计算常见的架构;第四节是实时数仓解决方案。一、实时计算实时计算一般都是针对海量数据进行的,并且要求为秒级。由于大数据兴起之初,Hadoop并没有给出实时计算解决方案,随后Storm,SparkStreaming,Flink等实时计算框架应运而生,而Kafka,ES的兴起使得实时计算领域的技术越来越完善,而随着物联网,机器学习等技术的推广,实时流式计算将在这些领域得到充分的应用。实时计.原创 2021-07-11 16:40:57 · 2389 阅读 · 9 评论 -
2021超全大数据面试宝典,吐血总结十万字,大数据面试收藏这一篇就够了
本文最新版已发布至公众号【五分钟学大数据】获取此套面试题最新pdf版,请搜索公众号【五分钟学大数据】,对话框发送面试宝典扫码获取最新PDF版: 版本 时间 描述 V1.0 2020-02-18 创建 V1.2 2020-06-17 新增 spark 、flink相关面试题 V1.3 ...原创 2021-07-09 17:30:30 · 14144 阅读 · 69 评论 -
Hive解析Json数组超全讲解
在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。本文首发于公众号【五分钟学大数据】Hive自带的json解析函数1. get_json_object 语法:get_json_object(json_string, '$.key') 说明:解析json的字符串json_string,返回path指定的内容。如原创 2021-07-03 15:47:43 · 2468 阅读 · 2 评论 -
MPP大规模并行处理架构详解(满满干货,需细嚼慢咽)
面试官:说下你知道的MPP架构的计算引擎?这个问题不少小伙伴在面试时都遇到过,因为对MPP这个概念了解较少,不少人都卡壳了,但是我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。本文首发于公众号【五分钟学大数据】,关注公众号,获取最新大数据技术文章采用MPP架构的很多OLAP引擎号称:亿级秒开。本文分为三部分讲解,第一部分详解MPP架构,第二部分剖析MPP架构与批处理架构的异同点,第三部分是采用MPP原创 2021-07-03 15:44:31 · 2506 阅读 · 1 评论 -
精选Hadoop高频面试题17道,附答案详细解析
Hadoophadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。本文首发于公众号【五分钟学大数据】,关注公众号,获取最新大数据技术文章1. 请说下HDFS读写流程这个问题虽然见过无数次,面试官问过无数次,还是有不少面试者不能完整的说出来,所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来的。HDFS写流程: Client客户端发送上传请求,通过RPC与NameNode建立通信,Nam原创 2021-07-03 15:42:18 · 4921 阅读 · 0 评论