【技术分享】最新小编整理离线分析的大数据技术集锦

最新推荐文章于 2024-10-28 07:53:47 发布

原创

最新推荐文章于 2024-10-28 07:53:47 发布 · 488 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #大数据学习 #人工智能 #hadoop #spark

本文详细介绍了大数据离线处理的关键技术，包括Zookeeper在分布式协调中的作用，Hadoop的HDFS、MapReduce和Yarn组件，Flume的日志收集，Hive的SQL接口，HBase的NoSQL特性，以及Phoenix如何提供SQL支持于HBase。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据相关体系梳理：今天小伙伴突然问我大数据都学习了些神马？就有了如下的对话，我也决定为她好好解答一下疑问。so，我们今天主要是以离线数据处理的技术为主。
在这里插入图片描述
1、zookeeper
大家知道大数据是对海量数据的处理，对于这种海量的存储一般就会用到分布式集群，然而分布式环境下常见的问题比如：集群管理、统一命名服务，信息配置管理，分布式锁等就需要一个技术来处理，这个技术就是zookeeper。zookeeper旨在在分布式应用中，提供可靠的、可扩展的、分布式的、可配置的协调机制来管理整个集群的状态。他的特性有：数据一致性，原子性，可靠性，实时性，顺序性，过半性。
2、Hadoop
Hadoop的集群系统为了解决Nutch的海量数据存储和处理的需求，可以解决大数据场景下的数据存储和处理的问题。一开始HDFS和MapReduce是作为Nutch的两个组件来使用，后来发现这两个组件不只是可以用在Nutch搜索，所以就单独取出来组成了Hadoop由HDFS、MapReduce、yarn组成。hadoopyou其中HDFS：用于分布式文件的存储，HDFS为了保证数据存储的可靠性(复本)和读取性能(切块)，对数据进行切块后进行复制(保证复本的数量)并存储在集群的多个节点中。HDFS中存在一个名字节点NameNode和多个数据节点DataNode。MapReduce：用于数据的计算，Yarn：进行任务调度。是Hadoop2.0出现的。数据块（Block）是HDFS中存储文件的最基本的存储单位。
在这里插入图片描述
3、Flume
用于从不同的来源有效收集，聚集和移动大量的日志数据用以集中式管理的系统。用于从不同的来源有效收集，聚集和移动大量的日志数据用以集中式管理的系统。一条日志在flume中会被转换成一个JSON格式的串来传递