hadoop 小记1

本文详细介绍了Hadoop架构及其子项目的功能与用途,包括轻量级语言Pig、SQL转换工具Hive、NoSQL数据库HBase、进程通信工具Zookeeper等。同时,深入解析了Hadoop的后台进程,如NameNode、Secondary NameNode和DataNode等关键组件的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MicrosoftInternetExplorer402DocumentNotSpecified7.8Normal0

hadoop的思想来源于google



goole面对数据和计算的难题:


1:大量的网页如何存储


服务器没有硬盘,网页信息存储在内存中,采用冗余方式



2:搜索算法


如何做到快速检索,响应时间快



3:网页价值计算


如何找到page-rank高的网页






hadoop子项目家族



pig:轻量级的语言,相当于shell,它的作用是用户跟mapreduce的转换器


hive: 面向oracle工程师,将部分sql语言转为mapreduce的程序


hbase:nosql数据库,使用列式存储


zookeeper: 负责服务器节点间及进程之间的通信,通讯的协调工具


chukwa:数据集成工具








hadoop的构架




24862808_201211161711441.jpg







hadoop的后台进程



1:namenode(最重要的进程)


hdfs的守护进程


分布式文件系统的总控 ,记录源文件是如何分割成数据块的,以及这些数据块被存储到哪些节点上

对内存和1/O进行集中管理


但是namendoe是个单节点,一旦namenode崩溃,整个集群就崩溃




2:secondary namenode(辅助名称节点)


namenode的 辅助备份用节点。namenode和secondary namenode 不能自动切换,必须手动进行切换



3:datanode(数据节点)


每台slave服务器都运行一个,负责将hdfs数据块读写到本地文件系统





24862808_201211161712211.jpg


mapreduce体系中的两个后台进程



jobtracker:每个集群只有唯一一个,它运行在master节点。用于处理作业(用户提交代码后)的后台进程,它决定由

              哪些文件参与处理,然后切割task并分配到不同节点;它还监控task,重启失败的task



tasktracker:位于slave节点上,与datanode结合(代码与数据一起的原则);管理各节点上的task(由jobtracker分配);

             每个节点只有一个tasktracker




总结一下:



master:运行了namenode、secondary namenode、jobtracker的节点


slave:运行tasktraker、datanode的节点




实验环境 (三台机)



一台做master (存放namenode、jobtracker)

另外两台做slave (存放tasktracker、datanode)

fj.pnghadoop构架.jpg

fj.png后台进程.jpg

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/24862808/viewspace-749368/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/24862808/viewspace-749368/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值