Hadoop与传统数据仓库的区别

在Hadoop 2014峰会上,Cloudera公司Doug Cutting与Hortonworks公司Arun Murthy讨论了Hadoop在数据仓库领域的崛起,分析了两者之间的区别,如数据仓库通常部署在单个关系数据库中,而Hadoop则跨多个机器处理海量数据。此外,文章介绍了Hive,它是建立在Hadoop上的数据仓库基础构架,提供ETL工具、类SQL查询语言HQL以及自定义的mapper和reducer来处理复杂分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 数据仓库业界是否该为Hadoop的迅速崛起而感到担忧甚至恐慌?抑或是该向其敞开热情的怀抱?Cloudera公司的Doug CuttingHortonworks公司的Arun Murthy作为Hadoop领域的两位先驱者,在本届Hadoop 2014峰会的问答环节中提出了这样的问题。尽管很多企业开始将数据仓库中的工作负载迁移到Hadoop环境当中,但这种作法仍然没有成为主流。但未来情况是否会有变化?“如果相当比例的用户不再增加数据仓库的规模,反而由于发现了Hadoop类系统在处理效率与负担成本方面的优势而对数据仓库方案进行投资或者规模缩减处理,那我认为这确实应该算作一种威胁,”Cutting解释道。

2.数据仓库和Hadoop之间的主要区别是:数据仓库通常部署在单个关系数据库中,而这个数据库则起到中央存储的作用。相比之下,Hadoop及其Hadoop文件系统是跨多个机器,并用来处理海量数据的,而这是任何单台机器都达不到的能力。

3.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值