
Hadoop
代码与思路齐飞
这个作者很懒,什么都没留下…
展开
-
Hadoop的简单介绍
在现在大数据计算领域,开始普及使用spark,但是spark是为了能获取比Hadoop更高性能发展起来的。在spark的生态圈里其中底部存储可以利用Hadoop的底层存储部件HDFS,在资源调度方面也可以使用Hadoop的资源调用部件YARN。Hadoop的组件有基础部分common,核心部分HDFS、MapReduce计算框架(用户自己编写处理框架)、YARN资源调用框架。另外还有许原创 2017-04-09 21:16:48 · 327 阅读 · 0 评论 -
HDFS的数据写入过程
HDFS写文件流程:1.客户端通过调用DistributedFileSystem的create方法创建新文件2.DistributedFileSystem通过RPC调用namenode去创建一个没有blocks关联的新文件,创建前,namenode会做各种校验,比如文件是否存在,客户端有无权限去创建等。如果校验通过,namenode就会记录下新文件,否则就会原创 2017-04-10 18:44:26 · 3675 阅读 · 0 评论 -
简单聊聊HDFS的federation
HDFS 的federation:两个或者多个HDFS集群对外提供统一服务成为federation有多个namenode,每个datanode中有属于每个namenode的数据。HDFS Federation设计可解决单一命名空间存在的以下几个问题: (1)HDFS集群扩展性。多个NameNode分管一部分目录,使得一个集群可以扩展到更多节点,不再像1.原创 2017-04-10 20:15:08 · 533 阅读 · 0 评论 -
HDFS的数据读取过程
HDFS数据的读取流程:1.首先调用FileSystem对象的open方法,其实是一个DistributedFileSystem的实例2.DistributedFileSystem通过rpc获得文件的第一个block的locations,同一block按照副本数会返回多个locations,这些locations按照hadoop拓扑结构排序,距离客户端近的排原创 2017-04-10 18:10:12 · 1027 阅读 · 0 评论 -
谈谈Hadoop框架的底层存储组件HDFS
对于大数据来说,数据量是巨大的,多样性的,而且后期是要进行本地计算的,这样的话数据的存储要求是可靠的来保证数据的不丢失,HDFS就实现了这样的一个功能。在处理大数据的过程中,一个数据文件会相应存储在hdfs上不同节点的不同文件中,把这些文件组织起来放到不同的文件夹中,这种组织方式叫做命名空间。HDFS的结构也是遵循主从模式的,主节点主要负责维护命名空间,即维原创 2017-04-10 11:58:03 · 2428 阅读 · 0 评论 -
简单聊聊HDFS的HA
HDFS 的HA 原理:HDFS的HA,指的是在一个集群中存在两个NameNode,分别运行在独立的物理节点上。在任何时间点,只有一个NameNode是处于Active状态,另一种是在Standby状态。 Active NameNode负责所有的客户端的操作,而Standby NameNode用来同步Active NameNode的状态信息,以提供快速的故障恢复能力。原创 2017-04-10 20:07:13 · 962 阅读 · 0 评论 -
遇到的一个MR处理业务
最近遇到的一个要求使用MR处理的业务,原始数据一共有7个字段,原始数据中的两个字段可以根据客户提供的方法得出一个指标。要求:1、新的数据是在原始的数据后面调加上这个指标2、保证数据没有重复的3、。。。由于保密,数据就不贴出来了。拿到这个一共有二个思路:1、在map函数中解析出这两个字段,然后根据方法得出指标,在最后写出去的时候context.原创 2017-04-11 19:53:20 · 448 阅读 · 0 评论 -
MapReduce的介绍
MR简述:MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。 MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段也是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。 MapReduc原创 2017-04-12 22:09:47 · 336 阅读 · 0 评论 -
调用Hadoop时遇到的一个问题:could not find or load main class
最近在使用其他框架调用Hadoop时,执行命令出现错误,查看UI界面的日志发现,如下:导致错误的原因应该是,在程序运行时,找不到Hadoop中的MRAppMaster的主类,导致程序无法进行下去。解决方法:在yarn-site.xml文件中name为yarn.application.classpath对应的value中配置Hadoop的相关jar需求等,如下:原创 2017-04-19 22:41:31 · 11485 阅读 · 0 评论