大数据面试题【持续更新中】

doudoudouy

已于 2023-09-03 00:19:01 修改

阅读量120

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

于 2023-08-31 23:54:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/doudoudouy/article/details/132571307

本文整理了大数据面试中的关键知识点，涵盖Hive、Hadoop的基础问题，如HDFS端口、配置文件、小文件问题解决方案，以及MapReduce的执行过程。此外，还涉及Linux常用命令和Shell脚本相关问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

一、Hive相关

二、Hadoop相关

2.1、基础问题

2.2、HDFS相关

2.2、MAPREDUCE相关

三、linux&shell

3.1、linux常用命令

3.2、脚本相关

3.3、常问问题

一、Hive相关

二、Hadoop相关

2.1、基础问题

1）常用端口号

                                    hadoop2.x   Hadoop3.x
访问HDFS端口                50070    9870
访问MR执行情况端口       8088     8088
历史服务器 19888     19888
客户端访问集群端口           9000   8020

2）常用配置文件

hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slaves

hadoop3.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml workers

2.2、HDFS相关

1）小文件问题

1个文件块占用namenode内存150字节，128G的文件能存储128*1024**1024*1024/150字节=9.1亿个文件块。每个小文件都会启动一个MapTask，一个MapTask默认内存是1G，及其浪费资源。可以使用如下方式解决：

①使用har归档

②采用CombineTextInputFormat切片，多个文件放在一起切片，将众多的小文件从逻辑上划分为较少的切片，这样只需要启动较少的MapTask即可。

③有小文件场景开启JVM重用；如果没有小文件，不要开启JVM重用，因为会一直占用使用到的task卡槽，直到任务完成才释放。JVM重用可以使得JVM实例在同一个job中重新使用N次，N的值可以在Hadoop的mapred-site.xml文件中进行配置，通常在10-20之间。

<property>

<name>mapreduce.job.jvm.numtasks</name>

<value>

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。