大海哥面试大保健

本文深入讲解了大数据面试中的关键知识点,包括Linux常用命令,Shell脚本,Hadoop的HDFS、MapReduce和Yarn,ZooKeeper的选举机制与安装配置,Flume组件,以及Kafka的发送流程、分区策略和数据可靠性。此外,还讨论了数据丢失、重复和乱序等问题以及解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、Linux

1.常用的高级命令

top: 查看内存;可以看到总体的系统运行状态和cpu的使用率
ps -ef: 查看服务器的进程信息
df -h: 显示磁盘分区使用情况
netstat: 显示整个 Linux 系统的网络状态
tar: 压缩和解压缩命令
find -name: 文件查找
rpm: 用于互联网下载包的打包及安装工具
jmap -heap: 根据进程号,查看进程内存
jstat -gc pid: 可以显示gc的信息,查看进程JVM垃圾回收的次数及时间

二、Shell

1.了解常用命令名字即可

awk: awk 脚本通常用来格式化文本文件中的信息
sed: sed在处理文本时是逐行读取文件内容,读到匹配的行就根据指令做操作,不匹配就跳过
sort: sort命令将文件的每一行作为比较对象,通过将不同行进行相互比较,从而得到最终结果
cut: cut用来从标准输入或者文本文件中剪切列或者域

2.写过那些脚本

启动停止

三、 Hadoop

1.hdfs

1 小文件的危害

小文件的定义,一般来说小于等于30M的文件,都叫小文件

1. HDFS不适合大量小文件的存储,因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存甚至撑爆内存(一个128G内存的能存储128*1024*1024*1024/150=9.1亿个数据块),另一方面就是元数据文件过多,使得寻址索引速度变慢 		拓展:Hadoop2.x namenode默认内存2000M,Hadoop3.x namenode内存动态分配-->NameNode内存最小值1G,每增加100万个block,增加1G内存
		
2. HDFS适用于高吞吐量,而不适合低时间延迟的访问。如果同时存入大量的小文件会花费很长的时间

3. 流式读取的方式,不适合多用户写入,以及任意位置写入。如果访问小文件,则必须从一个datanode跳转到另外一个datanode,这样大大降低了读取性能

4. 小文件计算:每个文件都切片被单独切分,每个小文件切片都开启maptask,每个maptask开启都会有一个JVM去执行,都消耗1g内存,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能,甚至导致MapTask的处理时间比启动时间还小,白白消耗资源

2.怎么解决

1. Hadoop Archive是一个高效的将小文件放入HDFS块中的文件存档工具,能够将多个小文件打包成一个HAR文件,从而达到减少NameNode的内存使用
2. 在MapReduce处理时,可采用CombineTextInputFormat提高效率,可以减少maptask个数
3. SequenceFile是由一系列的二进制k/v组成,如果为key为文件名,value为文件内容,可将大批小文件合并成一个大文件
4. 开启uber模式,实现jvm重用。默认情况下,每个Task任务都需要启动一个jvm来运行,如果Task任务计算的数据量很小,我们可以让同一个Job的多个Task运行在一个Jvm中,不必为每个Task都开启一个Jvm. 
5. 开启uber模式,在mapred-site.xml中添加如下配置
<!--  开启uber模式 -->
<property>
  <name>mapreduce.job.ubertask.enable</name>
  <value>true</value>
</property>

<!-- uber模式中最大的mapTask数量,可向下修改  --> 
<property>
  <name>mapreduce.job.ubertask.maxmaps</name>
  <value>9</value>
</property>
<!-- uber模式中最大的reduce数量,可向下修改 -->
<property>
  <name>mapreduce.job.ubertask.maxreduces</name>
  <value>1</value>
</property>
<!-- uber模式中最大的输入数据量,默认使用dfs.blocksize 的值,可向下修改 -->
<property>
  <name>mapreduce.job.ubertask.maxbytes</name>
  <value></value>
</property>

3. 读写流程(笔试题)

读:
在这里插入图片描述

(1)客户端通过DistributedFileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。
(2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。
(3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。
(4)客户端以Packet为单

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

水花一直飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值