
大数据面试相关
文章平均质量分 76
你的玉哥
硕士就读于某双非计算机专业,目前研究生三年级;2023秋招拿到了百度、携程、联想、理想汽车、去哪儿旅行等offer;主要做的方向是数据开发,欢迎小伙伴们一起交流学习。
展开
-
Hive---常见问题
。。原创 2022-08-11 16:55:44 · 2215 阅读 · 0 评论 -
Hive---数据倾斜的产生及解决方法
一、数据倾斜的定义数据倾斜是指在并行进行数据处理的时候,由于单个partition的数据显著多余其他部分,分布不均匀,导致大量数据集中分布到一台或者某几台计算节点上,使得该部分的处理速度远低于平均计算速度,成为整个数据集处理的瓶颈,从而影响整体计算性能。二、几种数据倾斜的解决方案1、空值引发的数据倾斜 在数据采集时,判断导致数据倾斜的key是不是提前过滤掉了。在inner join,也就是使用内连接时,hive默认过滤掉了空值,但对于left join等等,会保留左边有的值...原创 2022-04-01 18:24:29 · 8704 阅读 · 3 评论 -
Hive解析Json格式的日志文件
搬运自:(35条消息) 【Hive】解析json(get_json_object)_喜东东cc的博客-优快云博客_get_json_objectget_json_object(string json_string, string path)说明:第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组;如果输入的json字符串无效,那么返回NULL。每次只能返回一个数据项。例子:data 为 test表中的字段,数据结构如下:data转载 2022-03-16 21:00:38 · 398 阅读 · 0 评论 -
Mysql面试基础知识(全)
来源:作者:程序员大彬链接:MySQL面试题总结_笔经面经_牛客网来源:牛客网本文目录:事务的四大特性? 数据库的三大范式 事务隔离级别有哪些? 索引 什么是索引? 索引的优缺点? 索引的作用? 什么情况下需要建索引? 什么情况下不建索引? 索引的数据结构 Hash索引和B+树索引的区别? 为什么B+树比B树更适合实现数据库索引? 索引有什么分类? 什么是最左匹配原则? 什么是聚集索引? 什么是覆盖索引? 索引的设计原则? ...转载 2022-02-24 17:16:11 · 3282 阅读 · 0 评论 -
Hadoop---Hdfs HA即NameNode的高可用
一、为什么引入高可用因为namenode存在单点失效问题。如果namenode失效了,那么所有的客户端,包括MR作业,均无法读或者写文件,因为你namenode是唯一存储元数据与文件到数据库映射的地方。即使使用了2NN节点,也无法做到做到完全恢复,因为2NN不算是namenode的一个热备。二、Hdfs的高可用1、机制HDFS HA配置了一对活动-备用namenode。当活动namenode失效。备用namendoe就会接管它的任务并开始服务与来自客户端的请求,不会有任何明显的中断。2、原创 2022-02-16 22:19:54 · 1256 阅读 · 0 评论 -
Hadoop相关知识点
目录一、Hadoop的序列化和反序列化二、Hadoop数据压缩1、优缺点2、常用的压缩算法3、怎么选择?三、Hadoop各个版本的区别1、hadoop2.x相比hadoop1.x2、hadoop3.x相比hadoop1.x四、Hadoop的常见端口号及常用的配置文件1、常用端口号2、常用配置文件一、Hadoop的序列化和反序列化序列化:把内存中的对象,转化为字节序列(或者其他数据传输协议)以便于存储到磁盘(持久化)和网络传输反序列化:将收到的原创 2022-02-16 16:58:00 · 675 阅读 · 0 评论 -
Hadoop---MapReduce基本流程及常见问题(详细)
一、MapReduce的核心思想(1)分布式的运算程序往往需要分成至少 2 个阶段。(2)第一个阶段的 MapTask 并发实例,完全并行运行,互不相干。(3)第二个阶段的 ReduceTask 并发实例互不相干,但是他们的数据依赖于上一个阶段的所有 MapTask 并发实例的输出。(4)MapReduce 编程模型只能包含一个 Map 阶段和一个 Reduce 阶段,如果用户的业务逻辑非常复杂,那就只能多个 MapReduce 程序,串行运行。二、MapReduce的整个工作流程1..原创 2022-02-16 15:44:08 · 4434 阅读 · 0 评论 -
Hadoop面试题---Yarn的三个调度器和调度算法
一、Yarn的三种调度器(1)先进先出调度器(FIFO)(2)容量调度器(默认)(Capacity Scheduler)(3)公平调度器(Fair Scheduler)二、具体细节和调度算法1、先进先出调度器(FIFO)单队列,根据作业的提交顺序,先来先服务。(一般不用)2、容量调度器(默认)(Capacity Scheduler)特点:1、多队列:每个队列可配置一定的资源量,每个队列采用FIFO调度策略。2、容量保证:管理员可为每个队列设置资源最低保证和资源使用上限。3、灵活性:如果一原创 2022-02-15 15:31:41 · 3823 阅读 · 1 评论 -
Hadoop面试题---Yarn的作用以及工作机制
一、Yarn的作用在大数据生态环境中,yarn主要有两个作用:资源管理和程序调度。二、Yarn的组成主要由ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。三、Yarn的基础架构(1)ResourceManager作用:1)处理客户端请求;2)监控NodeManager,对各个NodeManager上的资源进行统一管理和调度;3)给ApplicationMaster分配空闲的Container运行并监控其运行状态;原创 2022-02-13 23:23:40 · 7027 阅读 · 0 评论 -
Hadoop面试题---Hdfs的文件快大小和什么有关系
一、Hdfs的文件块大小1、HDFS 中的文件在物理磁盘上是通过分块存储的,块的大小可以通过参数配置(dfs.blocksize)来决定,在 Hadoop >= 2.x 版本中是 128M,Hadoop1.x是 64M;二、一个例子1、 假如磁盘的寻址时间约为 10ms,即查找到目标 Block 的时间为 10ms2、根据规定,寻址时间为传输时间的 1%时,为最佳状态。因此传输时间= 10ms / 0.1 = 1s3、若磁盘的传输速率为 100M/s4、那么块的大小最佳为 100M。5、转载 2022-02-11 18:58:58 · 890 阅读 · 0 评论 -
Hadoop面试题---NN、DN以及2NN的工作机制
一、NN和2NN的工作机制1.首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。**因此产生在磁盘中备份元数据的 FsImage。**2.这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新 FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode 节点断电,就会产生数据丢失。因此,引入原创 2022-02-11 18:51:27 · 1907 阅读 · 0 评论 -
Hadoop面试题---hdfs的读写流程
一、Hdfs的写流程总体流程:1、客户端通过Distributed FileSystem 模块的create()方法向NameNode请求上传文件,并告诉namenode上传文件的文件名、文件大小、文件拥有者,NameNode检查目标文件是否已存在,父目录是否存在;2、NameNode 返回是否可以上传;3、客户端请求我的第一个 Block 上传到哪几个 DataNode 服务器上;4、NameNode 返回 3 个 DataNode 节点,分别为 dn1、dn2、dn3(每个文件块默认存储在三原创 2022-02-11 16:53:01 · 1134 阅读 · 0 评论