大数据开发面试题【Flume篇】

79、介绍下Flume以及架构

是一个开源的日志系统,是一个分布式。可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据
Agent:是一个jvm进程,他以时间的形式将数据从源头送至目的地、Agent 主要有 3 个部分组成,Source、Channel、Sink。
Source:负责接收数据到flume的agent的组件,可以处理avro、thrift、exec、jms…一系列日志类型
Sink:sink不断轮询channel中的事件并且批量地移除他们,写入到存储系统或者另一个flume agent
channel:是位于source和sink之间的缓冲区,有基于文件的fliechannel和基于内存的memorychannel(一个安全但是慢,一个快但是不安全)
Event:是flume的基本传输单元,以event的形式将数据从源头送至目的地,event由header和body组成

80、Flume事务机制

flume的事务机制类似数据库的事务机制:要么都成功,要么都失败
一个事务负责从source到channel,另一个事务负责从channel到sink
在这里插入图片描述

81、Flume采集数据会丢失吗?

flume是不可能丢失数据的,内部由完善的事务机制,两个环节的事务性保证
flume不会丢失数据,但是可能造成数据的重复,
flume作为高容量并行采集系统次啊用的是at-least-once,造成每个source产生的事件至少到达sink一次,又可能会造成重复

82、flume的拦截器

是设置在source和channel之间,source接收到的事件event,拦截器可以进行转换或者删除

Hadoop是一个用于处理大规模数据的开源框架,它不仅是大数据技术的核心重点,也是面试中经常会问到的问题之一。Hadoop包含了Hadoop框架本身以及Hadoop生态系统中的其他辅助框架,如zookeeper、Flume、Hbase、Hive、Sqoop等。在一个正常工作的Hadoop集群中,需要启动多个进程来完成不同的任务。这些进程包括: 1. NameNode:负责管理HDFS(Hadoop分布式文件系统)的元数据,如文件的目录结构和文件块的位置信息。 2. DataNode:负责存储实际的数据块,并向NameNode报告块的状态。 3. ResourceManager:负责管理集群上的资源分配和任务调度,协调不同应用程序之间的资源竞争。 4. NodeManager:负责管理每个节点上的资源,接收来自ResourceManager的指令,启动和监控容器,执行具体的任务。 5. SecondaryNameNode:定期从NameNode中复制元数据,用于恢复NameNode的故障。 6. JobTracker:负责任务调度和资源管理,监控任务的执行并重新调度失败的任务。 7. TaskTracker:在每个节点上运行,负责执行特定的任务,如Map任务或Reduce任务。 这些进程协同工作,以实现Hadoop集群的分布式计算和数据存储。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [大数据开发面试题详解:Hadoop的运行原理](https://blog.youkuaiyun.com/xx666zz/article/details/85708344)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [2021最全大数据面试题汇总---hadoop,附答案!](https://blog.youkuaiyun.com/weixin_45574790/article/details/119241157)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值