Hadoop优势

hdfs定义

hdfs优点


什么是hive
Hive:由Facebook开源用于解决海量结构化日志的数据统计。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
本质是:将HQL转化成MapReduce程序
1)Hive处理的数据存储在HDFS
2)Hive分析数据底层的实现是MapReduce
3)执行程序运行在Yarn上
Hive的优缺点
优点
1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。
2)避免了去写MapReduce,减少开发人员的学习成本。
3)Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。
4)Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。
5)Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
缺点
1.Hive的HQL表达能力有限
(1)迭代式算法无法表达
(2)数据挖掘方面不擅长,由于MapReduce数据处理流程的限制,效率更高的算法却无法实现。
2.Hive的效率比较低
(1)Hive自动生成的MapReduce作业,通常情况下不够智能化
(2)Hive调优比较困难,粒度较粗
mapreduce定义

mapreduce优缺点



flume定义
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
flume优点
1.2 Flume的优点
1.可以和任意存储进程集成。
2.输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。
3.flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。
zookeeper定义
Zookeeper是一个分布式协调服务的开源概架,主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免网时操作同一数据造成脏读的间题,ZooKee区本质上是一个分布式的小文件存储系统,提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理,从而用来维护和监控你存储的数据的状态变化,通过监控这些数据状态的变化,从而可以达到基于数据的集群管理,诸如:统一命名服务、分布式配置管理、分布式消息队列、分布式锁、分布式协调等功能。
zookeeper特点

本文深入探讨了Hadoop及其组件HDFS、Hive在大数据分析中的应用,解析了Hive如何将SQL查询转换为MapReduce任务,以及Flume在日志收集和传输中的角色。同时,介绍了Zookeeper在分布式系统中的协调作用。
1223

被折叠的 条评论
为什么被折叠?



