大数据面试题【持续更新中】

本文整理了大数据面试中的关键知识点,涵盖Hive、Hadoop的基础问题,如HDFS端口、配置文件、小文件问题解决方案,以及MapReduce的执行过程。此外,还涉及Linux常用命令和Shell脚本相关问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、Hive相关

二、Hadoop相关

2.1、基础问题

2.2、HDFS相关

2.2、MAPREDUCE相关

三、linux&shell

3.1、linux常用命令

3.2、脚本相关

3.3、常问问题


一、Hive相关

二、Hadoop相关

2.1、基础问题

1)常用端口号

                                    hadoop2.x    Hadoop3.x
访问HDFS端口                50070       9870
访问MR执行情况端口       8088        8088    
历史服务器                      19888      19888  
客户端访问集群端口           9000    8020

2)常用配置文件

hadoop2.x core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml   slaves

hadoop3.x core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml   workers

2.2、HDFS相关

1)小文件问题

        1个文件块占用namenode内存150字节,128G的文件能存储128*1024**1024*1024/150字节=9.1亿个文件块。每个小文件都会启动一个MapTask,一个MapTask默认内存是1G,及其浪费资源。可以使用如下方式解决:

        ①使用har归档

        ②采用CombineTextInputFormat切片,多个文件放在一起切片,将众多的小文件从逻辑上划分为较少的切片,这样只需要启动较少的MapTask即可。

        ③有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一直占用使用到的task卡槽,直到任务完成才释放。JVM重用可以使得JVM实例在同一个job中重新使用N次,N的值可以在Hadoop的mapred-site.xml文件中进行配置,通常在10-20之间。

<property>

    <name>mapreduce.job.jvm.numtasks</name>

    <value>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值