
Hadoop生态系统
文章平均质量分 79
on_way_
程序员一枚,爱好数学,英语,编程
展开
-
hadoop支持的数据类型
mapreduce的过程是:map:(k1,v1)------list(k2,v2)reduce:(k2,list(v2))------list(k3,v3)在map和reduce的过渡阶段,map出的结果中,key相同的数据会被分配到集群中的同一个节点。(在map与reduce这两个阶段之间还有一个partitioner阶段)在mapreduce中value的类型必须原创 2013-02-18 21:31:46 · 1890 阅读 · 1 评论 -
Hadoop 版本问题
最近一直再看《hadoop in action》这本书,这本书整体讲的不错,就是hadoop不同版本之间的区别比较大,大家学习时一定要用统一版本,否则事倍功半。书上第4章第四节讲的是版本间的区别,我这里简单整理一下:去hadoop的官网可以找到如下信息:1.0.X - current stable version, 1.0 release1.1.X - current beta原创 2013-03-10 17:04:51 · 3457 阅读 · 0 评论 -
cdh5.1.0 集成ganglia
ganglia英文意思是“中枢神经”,那么原创 2014-08-23 14:08:14 · 1760 阅读 · 0 评论 -
ResourceManager内部组成
1. ClientService原创 2014-09-27 11:20:18 · 1311 阅读 · 0 评论 -
Hadoop全分布式环境搭建
Hadoop的单击版和伪分布式版环境都好搭建(具体方法参见:hadoop单击版与伪分布式安装方法),这个全分布式还真是费了我不少时间。下面说说我的步骤:(一)准备工作1.准备3台装有linux的机器,具有相同的用户名(这个是必须的,我这里都是liujiacai)三台机器到ip与主机名192.168.6.38 master192.168.6.21 node1192.168.6原创 2013-03-03 09:16:26 · 3057 阅读 · 2 评论 -
yarn架构 及 client提交任务过程讲解
先看个yarn的整体架构Client向RM提交任务的过程大致分为七步,先上图在解释:1. Client向RM发出请求2. RM返回一个ApplicationID作为回应3. Client向RM回应Application Submission Context(ASC)。ASC包括ApplicationID、user、queue,以及其他一些启动AM相关的信息,除此之外,还原创 2014-08-18 23:04:43 · 1402 阅读 · 0 评论 -
cdh5.1.0 yum安装说明
1.core-site.xml<property> <name>fs.defaultFS</name> <value>hdfs://master:8020</value></property>2.hdfs-site.xml<property> <name>dfs.namenode.name.dir</name> <value>file:///data/dfs/nn原创 2015-02-06 10:28:41 · 1114 阅读 · 1 评论 -
HIVE再次尝试 用 Mysql 环境搭建 以及 mysql中文乱码完美解决
上文说道hive用默认的Derby作为metadata的存放处,但是这个缺点比较多,只能同时让一个用户登陆,不能用于真正的集群,下面讲解用mysql作为数据的搭建方法。第一步:安装mysql因为我用的是ubuntu系统,安装比较简单,一行命令搞定sudo apt-get install mysql-server第二步:配置hive首先,我假设你已经能够用De原创 2013-09-17 18:10:33 · 2980 阅读 · 0 评论 -
HIVE 新特性 ACID 初试
在 Hive 0.14 之前,Hive QL 一直不支持insert、update、delete 操作,这显然很不方便,尤其是在构建数据仓库的过程中,一个比较常见的例子是维度表经常需要更新某列,在 Hive 中需要更新历史所有数据,这显然是不合理的。在 Hive 0.14 版本,支持了行级别的 ACID 与 Transactions,这也就解决了上面的问题。本文主要讲解如何在 Hive 0.14 配原创 2016-04-02 22:54:05 · 5278 阅读 · 0 评论 -
在ubuntu部署hadoop之单机模式与伪分布式模式部署
<!--@page {margin:2cm}p {margin-bottom:0.21cm}-->这几天刚接触Hadoop,在学习如何搭建一个Hadoop集群。对于初学者来说,环境搭建还是比较麻烦的,我这里说一下我的配置方法,仅供大家参考。我的环境是ubuntu12.10+hadoop1.1.0.Hadoop的运行模式有以下三种。单机模式(sta原创 2012-08-16 12:06:12 · 2789 阅读 · 2 评论 -
cascading基本概念
Chaining Pipes// the "left hand side" assembly headPipe lhs = new Pipe( "lhs" );lhs = new Each( lhs, new SomeFunction() );lhs = new Each( lhs, new SomeFilter() );// the "right hand side" assemb翻译 2014-01-03 13:58:38 · 6615 阅读 · 0 评论 -
HIVE 牛刀小试 (伪分布式版本)
最近一直用hadoop处理数据,处理完以后要对数据进行分析,由于我们的数据不是很大,每次我都是把要分析的文件从hdfs下载到本地,然后再用python、shell脚本进行分析与统计,那hadoop生态系统中都有什么数据分析工具呢,目前据我所知,有两个:pig和hive。因为pig我以前看过,需要用Pig Lation(pig自己的脚本语言),为了省事,我这次直接看基于sql语句的hive。pig与原创 2013-09-16 16:59:29 · 1574 阅读 · 0 评论 -
Hadoop里的Partitioner和Combiner两个阶段
人们对于Mapreduce程序刚开始时都认为只需要一个reduce就够了。毕竟,在你处理数据之前一个reducer已经把数据都分好类了,有谁不喜欢分好类的数据呢。但是这样我们就忽略了并行计算的优势。如果只有一个reducer,我们的云计算就退化成了一个小雨点。在多个reducer的情况下,我们需要某种机制来控制mapper的结果的分配问题。这是就Partitioner的工作了。在默原创 2013-02-19 15:59:00 · 3236 阅读 · 0 评论 -
WordCount2
WordCount2中我们使用Hadoop框架中给我们提供的类来实现,我们的目的是用最少的代码来完成同样的任务import java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;impo原创 2013-02-19 16:11:18 · 1090 阅读 · 0 评论 -
Hadoop文件系统访问的两种方式
在这里记录下学习hadoop 的过程,并对重要内容记录下来,以备以后查漏补缺。要从Hadoop文件系统中读取文件,一般有两种方式:1.使用java.net.URL对象package com.ytu.chapter3;import java.io.IOException;import java.io.InputStream;import java.net.MalformedU原创 2013-02-18 21:04:47 · 3513 阅读 · 0 评论 -
Hadoop集群中hosts文件配置问题
最近一直在做hadoop的应用,但是无奈于并行加速比一直不理想,两台机器运行的时间和一台机器运行的时间差不多,老师还一直要这个数据,并行计算比至少应该为1.5,这样的并行程序才有意义。加了个qq群,发现了问题所在,再说我解决方法之前,先说一下我hadoop集群的配置:2台笔记本,其中1台为lenovo z460,CPU为Core i3,主机名为:liujiacai-Ideapad-Z460原创 2013-04-29 11:33:12 · 4140 阅读 · 0 评论 -
Hadoop的输入输出格式(重要)
首先说一下Hadoop中预定义的Mapper 与ReducerInputFormat接口决定了输入文件如何被hadoop分块(split up)与接受。TextInputFormat是InputFormat的默认实现,对于输入数据中没有明确的key值时非常有效,TextInputFormat返回的key值为字符在输入块中的行数,value为这行的内容。其他Inp原创 2013-02-19 17:40:19 · 2762 阅读 · 0 评论 -
海量数据面试题举例
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。转载 2013-06-21 17:13:35 · 1124 阅读 · 0 评论 -
Hadoop生态系统工具指南
Hadoop工具生态系统生长迅速,以下是IT经理网整理的最新Hadoop工具资源,供IT经理日常参考,欢迎读者来信或留言补充。HadoopApache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。网址:hadoop.apache.org HDFS分布式文件系统提供高速的应用数据访问。网址:hadoop.apache.org/h转载 2013-08-06 14:59:27 · 2210 阅读 · 0 评论 -
sqoop 2 API 踩坑纪录
sqoop2 相对 sqoop1,最大的优势就是提供了API方式来调用,这样第三方用户就可以根据自己的逻辑进行订制。这里记录下使用 sqoop2 将 mysql 数据导入 hdfs,hdfs 导出到 mysql 两种数据同步。相关软件sqoop 1.99.7hadoop 2.6.0相关代码import org.apache.sqoop.client.SqoopClient;import or原创 2017-03-01 18:56:57 · 3583 阅读 · 1 评论