大数据相关体系梳理:今天小伙伴突然问我大数据都学习了些神马?就有了如下的对话,我也决定为她好好解答一下疑问。so,我们今天主要是以离线数据处理的技术为主。
1、zookeeper
大家知道大数据是对海量数据的处理,对于这种海量的存储一般就会用到分布式集群,然而分布式环境下常见的问题比如:集群管理、统一命名服务,信息配置管理,分布式锁等就需要一个技术来处理,这个技术就是zookeeper。zookeeper旨在在分布式应用中,提供可靠的、可扩展的、分布式的、可配置的协调机制来管理整个集群的状态。他的特性有:数据一致性,原子性,可靠性,实时性,顺序性,过半性。
2、Hadoop
Hadoop的集群系统为了解决Nutch的海量数据存储和处理的需求,可以解决大数据场景下的数据存储和处理的问题。一开始HDFS和MapReduce是作为Nutch的两个组件来使用,后来发现这两个组件不只是可以用在Nutch搜索,所以就单独取出来组成了Hadoop由HDFS、MapReduce、yarn组成。hadoopyou其中HDFS:用于分布式文件的存储,HDFS为了保证数据存储的可靠性(复本)和读取性能(切块),对数据进行切块后进行复制(保证复本的数量)并存储在集群的多个节点中。HDFS中存在一个名字节点NameNode和多个数据节点DataNode。MapReduce:用于数据的计算,Yarn:进行任务调度。是Hadoop2.0出现的。数据块(Block)是HDFS中存储文件的最基本的存储单位。
3、Flume
用于从不同的来源有效收集,聚集和移动大量的日志数据用以集中式管理的系统。用于从不同的来源有效收集,聚集和移动大量的日志数据用以集中式管理的系统。一条日志在flume中会被转换成一个JSON格式的串来传递
【技术分享】最新小编整理离线分析的大数据技术集锦
最新推荐文章于 2024-10-28 07:53:47 发布