hadoop 小记1

congji3615

于 2012-11-16 17:08:44 发布

阅读量110

点赞数

文章标签：大数据数据库 shell

本文详细介绍了Hadoop架构及其子项目的功能与用途，包括轻量级语言Pig、SQL转换工具Hive、NoSQL数据库HBase、进程通信工具Zookeeper等。同时，深入解析了Hadoop的后台进程，如NameNode、Secondary NameNode和DataNode等关键组件的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MicrosoftInternetExplorer402DocumentNotSpecified7.8Normal0

hadoop的思想来源于google

goole面对数据和计算的难题：

1：大量的网页如何存储

服务器没有硬盘，网页信息存储在内存中，采用冗余方式

2：搜索算法

如何做到快速检索，响应时间快

3：网页价值计算

如何找到page-rank高的网页

hadoop子项目家族

pig：轻量级的语言，相当于shell，它的作用是用户跟mapreduce的转换器

hive：面向oracle工程师，将部分sql语言转为mapreduce的程序

hbase：nosql数据库，使用列式存储

zookeeper：负责服务器节点间及进程之间的通信，通讯的协调工具

chukwa：数据集成工具

hadoop的构架

hadoop的后台进程

1：namenode（最重要的进程）

hdfs的守护进程

分布式文件系统的总控，记录源文件是如何分割成数据块的，以及这些数据块被存储到哪些节点上

对内存和1/O进行集中管理

但是namendoe是个单节点，一旦namenode崩溃，整个集群就崩溃

2：secondary namenode（辅助名称节点）

namenode的辅助备份用节点。namenode和secondary namenode 不能自动切换，必须手动进行切换

3：datanode（数据节点）

每台slave服务器都运行一个，负责将hdfs数据块读写到本地文件系统

mapreduce体系中的两个后台进程

jobtracker：每个集群只有唯一一个，它运行在master节点。用于处理作业（用户提交代码后）的后台进程，它决定由

哪些文件参与处理，然后切割task并分配到不同节点；它还监控task，重启失败的task

tasktracker：位于slave节点上，与datanode结合（代码与数据一起的原则）；管理各节点上的task（由jobtracker分配）；

每个节点只有一个tasktracker

总结一下：

master：运行了namenode、secondary namenode、jobtracker的节点

slave：运行tasktraker、datanode的节点

实验环境（三台机）

一台做master （存放namenode、jobtracker）

另外两台做slave （存放tasktracker、datanode）

hadoop构架.jpg

后台进程.jpg

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/24862808/viewspace-749368/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/24862808/viewspace-749368/

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。