
Hadoop生态圈
初级以上
开始觉悟,得认真学习。
展开
-
hadoop优化 之 Archive 归档工具使用
Hadoop并不擅长对小型文件的储存,原因取决于Hadoop文件系统的文件管理机制,Hadoop的文件存储的单元为一个块(block),block的数据存放在集群中的datanode节点上,由namenode对所有datanode存储的block进行管理。namenode将所有block的元数据存放在内存中,以方便快速的响应客户端的请求。那么问题来了,不管一个文件有多小,Hadoop都把它视为一个block,大量的小文件,将会把namenode的内存耗尽。 那么如何对大量的小文件进行有效的处理呢?原创 2016-03-01 22:25:21 · 6340 阅读 · 1 评论 -
Hadoop+HBase高可用环境测试
Hadoop和HBase高可用环境运行正常,由于修改Hadoop 的相关配置文件,所以需要重启Hadoop集群。本次测试的目的是:确保Hadoop和HBase都可用的前提下,重启Hadoop集群。 原因:修改core.xml、mapred-site.xml、yarn-site.xml并同步至集群中的所有服务器; 主要测试步骤: 1、单原创 2016-11-01 10:42:36 · 1174 阅读 · 0 评论 -
实战 - hive 数据库SQL操作
在 hive cli 中创建数据库hive (default)> CREATE DATABASE IF NOT EXISTS testdb;查看hive中的数据库#查看所有已创建的数据库hive (default)> SHOW DATABASES;#匹配查询数据库: 查找test开头,且后续有字符的数据库hive (default)> SHOW DATABASES LIKE 'test.*'原创 2017-06-05 16:24:10 · 1332 阅读 · 0 评论 -
实战 - Hive中使用变量(环境变量、命令行变量、Hive 配置属性)
在Hive命令行工具中,可以使用系统环境变量、Hive配置文件中定义的属性以及Hive命令行工具中定义的变量。通过 set 命令,可以访问变量和修改变量的值。不同的变量,存储在不同的命名空间中。通过命名空间可以访问到变量。系统环境变量,存储于 evn 命名空间中,该命名空间中的变量是 只读的;Hive配置属性,存储于 hiveconf 命名空间中,该命名空间中的属性是 可读写的;Hive命令行变原创 2017-06-02 11:17:52 · 14130 阅读 · 1 评论 -
实战 - Hive cli命令行工具默认显示当前数据库
Hive 支持多数据库,Hive 默认的数据库是 default,每个数据库都是一个 hdfs 目录,default 比较特殊,位于 Hive 存储根目录下, 其他新建的数据库都会位于根目录子目录,子目录名为数据库名。默认情况下,Hive cli并不会显示当前数据库,但 hive 提供了一个属性: hive.cli.print.current.db=true; 来设置打印当前数据库名称。具体设置方法原创 2017-06-06 23:45:45 · 5617 阅读 · 0 评论 -
实战 - Hive 日期时间格式函数
系统的当前时间的时间戳-- 输出当前的系统时间,以时间戳形式输出,bigint类型;select nunix_timestamp();字符串时间转换为时间戳--默认,字符串日期格式必须是以"yyyy-MM-dd HH:mm:ss"格式,否则会返回0。select unix_timestamp("2017-06-16 15:50:00");--输出:1497599168select unix_ti原创 2017-06-19 11:00:08 · 2348 阅读 · 0 评论 -
实战 - Hive 日期时间运算与比较
日期比较:2个时间的比较,返回2个时间相差的天数。--函数: datediff(string end_date,string start_date); select datediff("2017-06-16 15:00:01","2017-06-15 15:01:01"); --输出: 1select datediff("2017-06-16 15:00:01","2017-06-18 16:原创 2017-06-19 12:23:47 · 29675 阅读 · 0 评论 -
实战 - LTS服务关闭
light-task-scheduler (LTS) 国内开源的分布式作业调度系统。主要用于解决分布式任务调度问题,支持实时任务,定时任务和Cron任务。请大家一起支持国产开源。LTS的安装部署,请参见另一篇博客:实战-LTS安装部署原创 2017-06-30 11:22:49 · 1114 阅读 · 0 评论 -
实战 - Hive 写入数据时报错:java.lang.IllegalArgumentException: java.net.URISyntaxException
通过Hive向表中写入数据时,报错:java.lang.IllegalArgumentException: java.net.URISyntaxException: Illegal character in scheme name at index 0: file:///usr/software/hive-1.2.1/lib/hive-hbase-handler-1.2.1.jar纵观网上帖子,经过原创 2017-06-23 10:20:04 · 4022 阅读 · 0 评论 -
实战 - Spring boot 整合Hive :java.lang.NoSuchMethodError
使用Spring boot整合Hive,在启动Spring boot项目时,报出异常:java.lang.NoSuchMethodError: org.eclipse.jetty.servlet.ServletMapping.setDefault(Z)V经过排查,是maven的包冲突引起的,具体做法,排除:jetty-all、hive-shims依赖包。对应的pom配置如下: <depende原创 2017-07-05 13:40:36 · 5259 阅读 · 0 评论 -
实战 - LTS安装部署
light-task-scheduler (LTS) 国内开源的分布式作业调度系统。主要用于解决分布式任务调度问题,支持实时任务,定时任务和Cron任务。请大家一起支持国产开源。项目地址:github地址: https://github.com/ltsopensource/light-task-scheduleroschina地址: http://git.oschina.net/hugui/ligh原创 2017-06-28 09:26:27 · 10709 阅读 · 0 评论 -
Hadoop2.6.0官方MapReduce文档翻译 之 二
十、作业执行及环境: MRAppMaster 执行Mapper、Reducer作业时,会将task作为它的子进程,运行在独立的jvm中。child-task 继承MRAppMaster 的运行环境。用户可以通过 mapreduce.{map|reduce}.java.opts 给 child-jvm 指定额外的设置项和在Job中设置参数(如:运行时连接器(run-time翻译 2016-04-10 18:55:53 · 2233 阅读 · 0 评论 -
Hadoop2.6.0官方MapReduce文档翻译 之 一
一、前提条件: 1、已经安装了Hadoop,并且正确配置了运行环境,Hadoop已经正常运行中;二、概述: Hadoop MapReduce是一套软件框架,可以轻松编写程序处理大数据集(几千兆的数据集)的合计问题, 程序能并行在可靠的,可容错的大集群(成千个节点)商用硬件上。 "MapReduce 工作"(MapReduce job)通过许多完翻译 2016-04-10 18:53:31 · 1584 阅读 · 0 评论 -
Hadoop原理 之 数据完整性
Hadoop的数据完整性,包括两个方面:一是,数据传输的完整性,也就是读写数据的完整性;二是,数据存储的完整性。 受网络不稳定、硬件损坏等因素,在数据传输和数据存储上,难免会出现数据丢失或脏数据,数据传输的量越大,出现错误的概率就越高。hadoop提供了一种“校验和”的机制来检测数据的完整性原创 2016-03-01 22:52:06 · 2187 阅读 · 0 评论 -
Hadoop学习笔记——1.java读取Oracle中表的数据,创建新文件写入Hdfs
在编写mapreduce应用程序时,首先要解决的就是把应用系统中的数据先进行整理以文本文件的方式存储到hdfs上,或者将数据整理后保存到其他mapreduce支持的数据源上(如HBase),本文主要是通过java应用程序把Oracle数据表中的数据进行读取,然后写入到Hdfs上,供mapreduce进行应用。原创 2016-02-20 12:56:56 · 3359 阅读 · 5 评论 -
Ubuntu14.0.4下,shell编译-打包-运行Hadoop2.7.2的MapReduce程序
本文实例环境: Ubuntu14.0.4 Hadoop 2.7.2 本文是根据对网上【作者:给力星】的文件的实践,作者原文在: http://www.powerxing.com/hadoop-build-project-by-shell/一、Hadoop 2.x 版本中的依赖 jar Hadoop 2.x 版本中 jar转载 2016-03-08 12:06:39 · 958 阅读 · 0 评论 -
Hive1.2.1的安装过程
一、环境说明:1、Ubuntu 14.0.4的操作系统;2、Hadoop2.7.2的伪分布模式;在准备安装Hive之前要确保Hadoop能够正常运行;3、Hive必须部署在一台能够访问到HDFS的机器上;二、安装步骤:2.1、解压与测试:1、解压apache-hive-1.2.1-bin-tar.gz;2、进入解压目录中的conf目录下,把hive-default.原创 2016-03-30 22:26:23 · 4160 阅读 · 0 评论 -
Hive数据类型-集合类型(Array-Map-Struct)的尝试
Hive支持的数据类型分为基础数据类型和集合类型。基础类型主要包括:tinyint,smalint,int,bigint,boolean,float,double,string,timestamp,ninary等。这些基础类型和其他关系型数据库中的基础数据类型差不多。集合类型主要包括:array,map,struct等,hive的特性支持集合类型,这特性是关系型数据库所不支持的,利用好集合原创 2016-04-01 13:41:23 · 8857 阅读 · 0 评论 -
Hive表的数据载入方式
Hive是基于Hadoop分布式文件系统的数据仓库工具,Hive利用了Hadoop的高可扩展性特点,实现大数据量的数据存储和数据分析。由于Hive是一个数据仓库工具,因此不提供行级别的增、删、改的操作。也就意味着要向Hive的表中写入数据必须是通过大量的数据写入方式。Hive提供了一些方式可以让我们把数据写入到Hive表中。Hive数据存储简介:Hive数据库及数据库对象,都是以文件夹(命原创 2016-04-02 22:41:27 · 1987 阅读 · 0 评论 -
Ubuntu14.0.4下部署Hadoop2.7.2伪分布模式
Hadoop伪分布模式,适合于学习、测试调试,有必要搭建一个Hadoop伪分布模式的环境,用于开发和调试MapReduce应用程序,本文以图文的方式介绍较新版本的Hadoop(Hadoop2.7.2)的伪分布模式的安装。原创 2016-02-29 11:05:33 · 868 阅读 · 0 评论 -
Ubuntu14.0.4下Hbase1.1.3伪分布模式部署
Hbase运行伪分布模式或完全分布模式需要依赖底层的分布式文件系统,如Hadoop、S3等,本文采用Hadoop分布式文件系统作为Hbase的底层文件系统。因为Hbase本身不支持备件的分布式存储、冗余、可扩展,所以需要依赖像Hadoop这样冗余的、可扩展、分布式的文件系统来实现。具体安装部署流程:1、安装部署Hadoop伪分布模式;2、安装部署Hbase伪分布模式。原创 2016-02-29 11:57:54 · 1151 阅读 · 0 评论 -
Hadoop编程-自定义Hadoop数据类型报错:NoSuchMethodException
Hadoop拥有自己一个I/O机制,要用Mapper、Reducer对数据进行处理,就离不开Hadoop提供的I/O基础数据类型,Hadoop提供了BooleanWritable、ByteWritable、IntWritable、FloatWritable、DoubleWritable、LongWritable等。用Hadoop提供的这些基础数据类型,可以解决一些简单的数据处理,如:最常见的“词频原创 2016-03-27 17:17:52 · 1637 阅读 · 0 评论 -
Zookeeper 3.4 官方文档翻译
说明个人英语水平很一般,理解可能有偏差,如果有翻译不恰当之处,请看官指点。1、简介分布式系统就像动物园,其中每台服务器就像一只动物,Zookeeper就像动物园管理员,协调、服务于动物园里的动物。Zookeeper 是分布式应用程序的高性能的协调服务。Zookeeper 通过简单的接口服务,对象暴露了公共服务接口,例如:Naming,Configuration manageme翻译 2016-04-10 09:06:10 · 5614 阅读 · 2 评论 -
实战 - Hive 中构建 dual 表
使用过 Oracle 的人,估计对 dual 表都不会陌生,但是 Hive 中,默认情况下是没有 dual 表的,需要我们自己动手去构建。其实方法很简单。原创 2017-08-22 09:19:11 · 1977 阅读 · 0 评论