hadoop的思想来源于google
goole面对数据和计算的难题:
1:大量的网页如何存储
服务器没有硬盘,网页信息存储在内存中,采用冗余方式
2:搜索算法
如何做到快速检索,响应时间快
3:网页价值计算
如何找到page-rank高的网页
hadoop子项目家族
pig:轻量级的语言,相当于shell,它的作用是用户跟mapreduce的转换器
hive: 面向oracle工程师,将部分sql语言转为mapreduce的程序
hbase:nosql数据库,使用列式存储
zookeeper: 负责服务器节点间及进程之间的通信,通讯的协调工具
chukwa:数据集成工具
hadoop的构架
hadoop的后台进程
1:namenode(最重要的进程)
hdfs的守护进程
分布式文件系统的总控 ,记录源文件是如何分割成数据块的,以及这些数据块被存储到哪些节点上
对内存和1/O进行集中管理
但是namendoe是个单节点,一旦namenode崩溃,整个集群就崩溃
2:secondary namenode(辅助名称节点)
namenode的 辅助备份用节点。namenode和secondary namenode 不能自动切换,必须手动进行切换
3:datanode(数据节点)
每台slave服务器都运行一个,负责将hdfs数据块读写到本地文件系统
mapreduce体系中的两个后台进程
jobtracker:每个集群只有唯一一个,它运行在master节点。用于处理作业(用户提交代码后)的后台进程,它决定由
哪些文件参与处理,然后切割task并分配到不同节点;它还监控task,重启失败的task
tasktracker:位于slave节点上,与datanode结合(代码与数据一起的原则);管理各节点上的task(由jobtracker分配);
每个节点只有一个tasktracker
总结一下:
master:运行了namenode、secondary namenode、jobtracker的节点
slave:运行tasktraker、datanode的节点
实验环境 (三台机)
一台做master (存放namenode、jobtracker)
另外两台做slave (存放tasktracker、datanode)
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/24862808/viewspace-749368/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/24862808/viewspace-749368/