
Hadoop
文章平均质量分 89
Bob Liu
这个作者很懒,什么都没留下…
展开
-
Ubuntu环境下Hadoop集群/分布式环境配置
简介本文介绍了在Ubuntu 16.04 TLS系统下,如何配置Hadoop 2.7.3集群运行环境。环境大搭建使用了虚拟化平台VMware vSphere 5.1,方便虚机的拷贝和部署。读者也可以在个人PC上通过虚拟化软件VirutalBox或WorkStation部署Hadoop的集群环境。原创 2017-09-22 13:47:46 · 1460 阅读 · 0 评论 -
Hive 2.2安装指南
通过自己安装部署Hadoop和Hive可以让用户更加清楚的知道这些工具是如何工作的,特别是对开发者来说。本文详细介绍了如何在Ubuntu系统上的安装部署Hive 2.2,这里使用的Hadoop版本为2.7.3。原创 2017-10-03 10:26:53 · 1355 阅读 · 2 评论 -
Hive命令行介绍
$HIVE_HONE/bin/hive命令工具是与Hive服务交互的最常用的方式,是学习和熟悉Hive重要的工具。本文总结了Hive命令行的常见用法,能够帮助读者快速了解和学习Hive。原创 2017-10-03 17:33:57 · 1846 阅读 · 0 评论 -
Hadoop简介
学习一种新的技术,在深入技术细节之前,首先需要了解这项技术的产生的背景,了解技术的总体框架。本文介绍了Hadoop基本概念、Hadoop重要模块、守护进程,以使读者能够对Hadoop有一个总体的认识。原创 2017-10-01 08:07:24 · 1197 阅读 · 1 评论 -
Hadoop配置文件简介
本文介绍了Hadoop 2.7.x常用的配置文件,并结合Hadoop的不同工作模式介绍其基本的配置。原创 2017-10-01 08:04:20 · 1388 阅读 · 0 评论 -
与HDFS命令交互时如何指定文件和目录确切位置的URI
本文介绍URI的基本格式,并结合Hadoop 2.7.x相关HDFS命令,讲解在与HDFS交互中如何指定文件和目录确切位置的URI。原创 2017-09-30 23:08:21 · 5426 阅读 · 0 评论 -
MapReduce总结
MapReduce是一种可用于数据处理的编程模型。MapReduce程序本质上是并行运行的,优势在于处理大规模数据集。本文介绍了Hadoop MapReduce的架构,并结合具体例子介绍MapReduce的工作过程,以更深入的了解MapReduce。原创 2017-10-08 21:06:17 · 1557 阅读 · 0 评论 -
Hadoop-使用MRUnit来写单元测试
单元测试是用来对一个模块、一个函数或者一个类来进行正确性检验的测试工作。在MapReduce开发中,如何能对Mapper和Reducer进行详尽的单元测试,能够及早发现问题,加快开发进度。 本文结合具体的例子,简单总结如何使用MRUnit来对Hadoop的Mapper和Reducer进行单元测试。本文的相关代码可以从Github获取:https://github.com/liujinguang/hadoop-study.git原创 2017-09-20 17:32:18 · 1837 阅读 · 2 评论 -
Ubuntu环境下搭建Hadoop Eclipse开发环境
本文介绍了在Ubuntu环境下,如何搭建Hadoop的Eclipse开发环境,并以实际的例子为例,演示应用具体的开发步骤。Hadoop伪分布式运行环境的配置,不算复杂,可以参考个人整理的在Ubuntu环境下搭建Hadoop伪分布式模式运行环境。原创 2017-09-10 18:06:40 · 1350 阅读 · 1 评论 -
如何解决Hadoop Connection Refused和FileNotFoundException问题
本文以使用URLStreamHandler来将Hadoop文件系统中的文件显示的标准输出的例子,来讲解如何定位和解决Connection Refused和FileNotFoundException问题。本例子中使用的Hadoop 2.7.3版本。原创 2017-08-29 12:53:39 · 16651 阅读 · 1 评论 -
Hadoop: HDFS数据流分析
简介本文主要介绍客户端及与之交互的HDFS、NameNode和DataNode之间的数据流的工作机制。NameNode和DataNode介绍在了解数据流工作机制之前,我们先来了解一下NameNode和DataNode。HDFS集群有两类节点以管理者-工作者模式运行,即一个NameNode和多个DataNode。NameNode管理文件系统的命名空间,维护文件系统树及整棵树内原创 2017-08-30 16:21:49 · 1303 阅读 · 0 评论 -
Hadoop 2.7.x NameNode重新格式化后导致DataNode无法启动问题
Hadoop 2.7.x伪分布式运行环境下,由于NameNode重新格式化后,导致DataNode无法正常启动。本文总结了此问题的解决方法和思路,供个人参考。原创 2017-09-10 12:12:57 · 3145 阅读 · 1 评论 -
在Ubuntu环境下配置Hadoop伪分布式模式运行环境
本文介绍了在Ubuntu 16.04 TLS系统上,如何安装和配置Hadoop 2.7.3的伪分布式模式。原创 2017-09-09 21:38:33 · 1587 阅读 · 0 评论 -
如何解决Hadoop集群环境下DataNode无法连接NameNode问题
本文总结了在Hadoop集群环境下,DataNode无法连接NameNode的问题:2017-02-13 05:43:01,540 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Problem connecting to server: hadoop-master-vm/10.220.33.37:9000,重点在于问题的排除思路和方法。该问题出现的运行环境为Ubuntu 16.05 TLS, Hadoop 2.7.3环境下。原创 2017-09-22 23:02:42 · 8963 阅读 · 0 评论 -
Hive简介
本文介绍了Hive的起源,基本的功能特性,应用场景,并对Hive主要服务进行介绍,通过阅读本文,读者可以对Hive有基本的了解。原创 2017-10-03 14:32:10 · 1371 阅读 · 0 评论