
hadoop
回南山种豆
你是谁?你从哪里来?到哪里去?你去干什么?
展开
-
hadoop学习之数据复制
HDFS被设计为能够在一个大集群中跨机器可靠第存储超大文件,他将每个文件存储为一系列的数据块,除了最后一个,所有的数据块都是同样大小的。为了容错,文件的所有数据块都会有副本。每个文件的数据块大小和副本系数都是可配置的。应该用程序可以指定某个文件的副本数目,副本系数可以再文件创建的时候指定,也可以在创建之后改变。HDFS文件都是一次性写入的,并且要求在任何时候都只能有一个写入者。namenode原创 2012-04-14 18:11:06 · 936 阅读 · 0 评论 -
hadoop学习之数据完整性
当客户端从某个Datanode获取的数据可能是损坏的,损坏可能是由于Datanode的存蓄设备错误、网络错误或者软件bug造成的。HDFS客户端软件实现了对HDFS文件内容的校验和检查。当客户端创建一个新的HDFS文件,会计算这个文件的每个数据块的校验和,并将校验和作为一个单独的隐藏文件保存在HDFS名字空间下,当客户端获取文件 内容后,他会校验从datanode获取的数据的跟响应的教校验和文件中原创 2012-04-14 19:20:45 · 782 阅读 · 0 评论 -
hadoop入门学习
Hadoop一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop 是有由下面好多东西:HDFS (分布式文件系统(Hadoop Distributed File System))MapRedu转载 2012-04-14 16:55:26 · 686 阅读 · 0 评论 -
hadoop学习之通讯协议
所有的HDFS通讯协议都是建立在TCP/IP协议之上,客户端通过一个可配置的TCP端口连接到Namenode,通过ClientProtocol协议与Namenode交互。而Datenode使用的是DatenodeProtocol协议与Namenode交互。一个远程调用(RPC)模型被抽象出来封装ClientPortocol和Datenode协议。在设计上,Namenode不会主动发起RPC,而是响原创 2012-04-14 19:11:13 · 690 阅读 · 0 评论 -
hadoop 学习之Map/Reduce
Hadoop Map/Reduce是一个使用简单的软件框架,给予他写出来的程序可以运行在上千台机器上。 一个Map、Redeuce作业通常会把输入数据切分为若干个独立的数据块,并有Map忍辱(task)完成并行方式的处理。框架会对Map的输出先进行排序,然后把结果输出给Reduce任务。通常作业的输入输出都会存储在文件系统中。整个框架负责任务的调度和执行。 通常,Map/R原创 2012-04-14 21:05:09 · 856 阅读 · 0 评论 -
hadoop的负载均衡学习
一般般情况下,数据在录入集群的时候就进行负载均衡,根据各个节点的情况来做数据平衡分发存放。但是如果在新增节点之后,如果想做到负载均衡则需要使用balancer的命令。对于这个命令,一般是有一个阀值,默认是10%也就是说,节点之间差额不过10%,集群认为就是均衡的。当然,负载的越平均,查询相对也较快,但是均衡的过程会耗时不少。1、新添加节点到集群,启动节点机器sh hadoop-daem原创 2012-04-17 23:06:19 · 4312 阅读 · 0 评论