
Hadoop
DataGPT
透过技术圈百态,体会世间冷暖,树立正确的技术观、人生观、价值观和世界观
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
配置GP访问Hadoop的HDFS文件系统
(1) 添加GPDB所有节点配置环境变量修改安装Greenplum DB数据库用户家目录下面的环境变量文件.bashrc,添加如下内容:exportJAVA_HOME=/home/gpadmin/jdk1.6.0_32export CLASSPATH=$JAVA_HOME/lib/tools.jarexportHADOOP_HOME=/home/dbadmin/hadoo原创 2015-02-07 12:16:46 · 3902 阅读 · 0 评论 -
Hadoop NameNode 高可用 (High Availability) 实现解析
分享一篇对NameNode HA总结的不错的文章NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoo转载 2017-08-17 13:45:33 · 961 阅读 · 0 评论 -
HDFS配额设置和测试
名称配额(Name Quota)名称配额是在对应的目录下所有文件和目录名称的数量上的限制。当超过这个配额的时候,文件或目录就会创建失败,重命名后名称配额仍然有效。因为比较简单,所以我们直接测试:步骤一:创建一个测试目录[root@testbig1 ~]# hdfs dfs -mkdir /data/test_quota1 步骤二:设置创建的目录的名称配额[root@testbig1 ~]# hdf原创 2017-04-25 10:48:03 · 4721 阅读 · 0 评论 -
Yarn最佳实践
本篇博客,我将讨论Yarn资源管理方面的最佳实践,如果有写的不对的地方,请朋友们多多指教。本篇文章也参考了网上的一些资料。 Hadoop2中引入Yarn组件,将MRv2(Yarn)分为两个主要组件,一个是资源管理,一个是作业调度和监控,并且使用独立的守护进程,全局的ResourceManager(RM)以及每个应用程序的ApplicationMaster(AM)。 ResourceManager(原创 2016-09-20 14:32:12 · 2481 阅读 · 0 评论 -
MapReduce原理
MapReduce程序的执行过程分为两个阶段:Mapper阶段和Reducer阶段。其中Mapper阶段可以分为6个步骤:第一阶段:先将HDFS中的输入文件file按照一定的标准进行切片,默认切片的类为FileInputFormat。FileInputFormat这个类继承自InputFormat,InputFormat这个类会将文件file按照逻辑进行划分,划分成的每一个split切片将会被分配原创 2016-09-19 23:53:48 · 1393 阅读 · 0 评论 -
Apache Hive2.0的新特性介绍
Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。它为数据仓库的管理提供了许多功能:数据 ETL (抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。同时 Hive 还定义了类 SQL的语言 – Hive QL. Hive QL 允许用户进行和 SQL 相似的操作,它可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能。还允许开发人员方便地使用 M转载 2016-09-19 21:23:55 · 3141 阅读 · 0 评论 -
基于Docker搭建Hadoop集群(ubuntu操作系统)
1. 项目说明关于Docker方面的内容,我们这里就不做介绍了,大家可以访问Docker官方网站(https://www.docker.com)获取详细的信息,包括Docker安装部署,基本操作命令等等。 我这个项目的目标是将Hadoop集群运行在Docker容器中,使Hadoop开发者能够快速便捷地在本机搭建多节点的Hadoop集群,即通过一台Ubuntu节点运行Hadoop集群环境。原创 2016-09-17 08:54:06 · 3618 阅读 · 0 评论 -
格式化和验证Hadoop,Spark等xml配置文件的工具xmllint
从事Hadoop,HBase,Spark等大数据相关工作的朋友都知道,我们部署大数据平台时,经常会配置xml文件,但是往往配置的参数比较乱,而且有可能格式也会配置错误,所以希望能有一个工具能够帮助我们对于xml文件进行格式化和验证正确性。xmllint便是一个很方便的处理及验证xml的工具,linux下只要安装libxml2就可以使用这个命令,而且一般Linux默认已经部署libxml2了。查看安原创 2016-08-24 11:39:56 · 2059 阅读 · 0 评论 -
一个根据所给资源自动配置CDH中Hadoop等参数的工具
分享一个根据所给内存,CPU等资源,自动配置Hadoop等参数的工具。假设Python的名字为:cdh_auto_configuration.py,完整内容如下:#!/usr/bin/env pythonimport optparsefrom pprint import pprintimport loggingimport sysimport mathimport ast''' Reserved原创 2016-08-09 09:52:46 · 1637 阅读 · 0 评论 -
优化Hadoop Balancer平衡的速度
之前我在博客中介绍了HDFS的Block数据balancer重分布实战内容:http://blog.youkuaiyun.com/jiangshouzhuang/article/details/51879102 本篇文章我们再来简单介绍一下优化Hadoop Balancer平衡的速度涉及到的几个重要参数。1. dfs.datanode.max.transfer.threads修改dfs.datanode.m原创 2016-08-30 11:19:04 · 5855 阅读 · 0 评论 -
cloudera-manager-el6-cm5.7.0版本启动Agent失败的问题解决
我们在部署完CDH 5.7.0和CM 5.7.0后,开始启动CM Agent,但是会出现下面的错误:# cloudera-scm-agent startStarting cloudera-scm-agent: [FAILED][root@cdha parcels]# cat /opt/cloudera-manager/cm-5.7.0/原创 2016-07-25 08:58:41 · 13309 阅读 · 0 评论 -
HDFS的Block数据balancer重分布实战
Hadoop的HDFS集群在使用一段时间后,各个DataNode节点的磁盘使用率肯定会出现不平衡的情况,也就是数据量层面的数据倾斜,如图: 引起这种情况的方式很多:1. 添加新的Datanode节点2. 人为干预将数据的副本数降低或者增加 我们都知道当HDFS出现数据不平衡的时候,就会造成MapReduce或Spark等应用程序无法很好的利用本地计算的优势,而且Datano原创 2016-07-11 11:02:50 · 22434 阅读 · 4 评论 -
YARN基本组成结构
YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。YARN基本转载 2015-09-23 21:32:58 · 1102 阅读 · 0 评论 -
YARN工作流程
运行在YARN上的应用程序主要分为两类:短应用程序和长应用程序,其中,短应用程序是指一定时间内(可能是秒级、分钟级或小时级,尽管天级别或者更长时间的也存在,但非常少)可运行完成并正常退出的应用程序,比如MapReduce作业(将在第8章介绍)、Tez DAG作业等,长应用程序是指不出意外,永不终止运行的应用程序,通常是一些服务,比如Storm Service(主要包括Nimbus和Supervis转载 2015-09-23 21:37:04 · 1270 阅读 · 0 评论 -
HBase和MapReduce
HBase集成了MapReduce框架,对表中大量的数据进行并行处理HBase为MapReduce每个阶段提供了相应的类用来处理表数据 InputFormat类: HBase实现了TableInputFormatBase类,该类提供了对表数据的大部分操作 其子类TableInputFormat则提供了完整的实现,用于处理表数据并声称键值对 Mapper类和Reduc原创 2015-09-20 12:02:35 · 1506 阅读 · 0 评论 -
Hadoop执行MR Job的基本过程
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ原创 2015-06-21 15:15:43 · 3047 阅读 · 0 评论