ProgrammingHive笔记--Chapter1 Introduction

最新推荐文章于 2019-06-01 13:27:19 发布

deepsnow12345

最新推荐文章于 2019-06-01 13:27:19 发布

阅读量283

点赞数

CC 4.0 BY-SA版权

分类专栏： Programming 文章标签： hive

本文链接：https://blog.youkuaiyun.com/deepsnow12345/article/details/53731416

Programming 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了Hadoop及其MapReduce的工作原理，探讨了Hive作为数据仓库的应用，对比了Hive与Pig、HBase等工具的特点，适用于希望深入了解大数据处理框架的读者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一章的主要内容包含：

概要：由于数据价值越来越大，越来越多的公司存储海量数据，hadoop提供了这样的一个环境，运用分布式系统来管理数据，实现数据的有效的存储和管理。其主要利用mapreduce的模型来进行管理。其中面临的挑战是一般的用户如何和hadoop的底层系统进行交互，sql是结构化的查询语言，hive提供了一个用sql和hadoop交互沟通的语言方式，基本和sql相同但又不尽相同。

Hive适合静态数据处理，更适合数据仓库存储数据，做简单的分析。因为他没有办法做实时的联机数据交互请求（oltp,online transaction processing）的交易处理，即双方都需有即时的反馈和更正；也不知何做实时的联机数据分析(olap online analytic processing)，分析可以做，但无法做到实时，这时用hbase可能会更好。

1.hadoop中mapreduce的工作原理--优点是大数据处理，更适合做数据仓库存储，很难做实时响应和更新。

2.hive和hadoop之间的关系，hive是如何和hadoop交互的；

3.其他与hive有相同功能的项目--Pig

4.具备hive数据库不具备的功能的其他数据库--Hbase；

5.其他语言的介绍

1.Hadoop的mapreduce工作原理。

mapreduce为计算模型，将单个任务分成多个并行的小任务--通过map先对数据做简单处理，按照规则分发给reducer进行处理，之后把任务再合并起来，输出最终的结果。

举例：wordcount程序

不同的文件对应给不同的mapper，mapper按照需求的结果对每一行的数据进行处理输出key-value，然后mapper就行sort和shuffle的过程，即将所有的key-value做排序，同样的key给到同一个reducer，一个reducer里可能有很多key-value对，但是同一个key只能在同一个reducer里。然后reducer把相同的key，和可能的value的集合放在一起，按照命令进行计算，最后输出结果。