【技术分享】最新小编整理离线分析的大数据技术集锦

本文详细介绍了大数据离线处理的关键技术,包括Zookeeper在分布式协调中的作用,Hadoop的HDFS、MapReduce和Yarn组件,Flume的日志收集,Hive的SQL接口,HBase的NoSQL特性,以及Phoenix如何提供SQL支持于HBase。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据相关体系梳理:今天小伙伴突然问我大数据都学习了些神马?就有了如下的对话,我也决定为她好好解答一下疑问。so,我们今天主要是以离线数据处理的技术为主。
在这里插入图片描述
1、zookeeper
大家知道大数据是对海量数据的处理,对于这种海量的存储一般就会用到分布式集群,然而分布式环境下常见的问题比如:集群管理、统一命名服务,信息配置管理,分布式锁等就需要一个技术来处理,这个技术就是zookeeper。zookeeper旨在在分布式应用中,提供可靠的、可扩展的、分布式的、可配置的协调机制来管理整个集群的状态。他的特性有:数据一致性,原子性,可靠性,实时性,顺序性,过半性。
2、Hadoop
Hadoop的集群系统为了解决Nutch的海量数据存储和处理的需求,可以解决大数据场景下的数据存储和处理的问题。一开始HDFS和MapReduce是作为Nutch的两个组件来使用,后来发现这两个组件不只是可以用在Nutch搜索,所以就单独取出来组成了Hadoop由HDFS、MapReduce、yarn组成。hadoopyou其中HDFS:用于分布式文件的存储,HDFS为了保证数据存储的可靠性(复本)和读取性能(切块),对数据进行切块后进行复制(保证复本的数量)并存储在集群的多个节点中。HDFS中存在一个名字节点NameNode和多个数据节点DataNode。MapReduce:用于数据的计算,Yarn:进行任务调度。是Hadoop2.0出现的。数据块(Block)是HDFS中存储文件的最基本的存储单位。
在这里插入图片描述
3、Flume
用于从不同的来源有效收集,聚集和移动大量的日志数据用以集中式管理的系统。用于从不同的来源有效收集,聚集和移动大量的日志数据用以集中式管理的系统。一条日志在flume中会被转换成一个JSON格式的串来传递

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值