
hadoop学习
文章平均质量分 56
iris95
这个作者很懒,什么都没留下…
展开
-
pig Error 1066:unable to open iterator for alias A
在学习pig 的时候做以下操作 : dump A;出现错误:Error 1066:unable to open iterator for alias A解决方法: 发现虽然启动了hadoop 但是jobtracker的进程没有开启重新启动一次hadoop : start-all.sh再次尝试 成功!原创 2016-01-29 17:38:32 · 2090 阅读 · 1 评论 -
hive 安装和配置 详细教程
首先使用工具winscp 或 共享文件夹 将hive-0.9.0.tar.gz 复制到/usr/local 路径下(winscp 下载路径:http://download.youkuaiyun.com/detail/xq_iris/9413944 hive下载路径:http://download.youkuaiyun.com/detail/xq_iris/9425489 )然后输入命令 tar -原创 2016-02-02 16:34:36 · 1209 阅读 · 0 评论 -
pig安装和配置 详细教程
首先,通过winscp工具或者共享文件夹 把pig-0.11.1.tar.gz 复制到 /usr/local目录下(winscp下载地址 : http://download.youkuaiyun.com/detail/xq_iris/9413944 ) ( pig 下载地址: http://download.youkuaiyun.com/detail/xq_iris/9425711)原创 2016-02-02 15:44:23 · 2180 阅读 · 0 评论 -
hive实战演练:手机流量统计
hive 本质上是一个 sql 解析引擎 ,提供了一种类sql语言 hql 以便于使用,将我们熟悉的sql语言 转换成了 一个个map-reduce进程需求 : 统计如下文件中 每个手机号使用流量的情况 待处理文件:http.dat1363157985066 1372623050300-FD-07-A4-72-B8:CMCC 120.196.100.82i02.c.al原创 2016-02-05 11:34:57 · 1031 阅读 · 0 评论 -
pig实战演练:手机流量统计
•pig是一种操作hadoop的轻量级脚本语言,是基于hadoop的数据处理框架•Pig包括两部分: 用于描述数据流的语言,称为PigLatin。 用于执行PigLatin程序的执行环境,当前有两个环境:单JVM中的本地执行环境和 Hadoop集群上 的分布式执行环境。• Pig和mapReduce的区别: mr是基于java的,代码冗长复杂 P原创 2016-02-13 10:47:05 · 603 阅读 · 0 评论 -
Flume详解
一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数转载 2016-02-15 16:12:50 · 592 阅读 · 0 评论 -
Flume原理
Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能。Flume采用了分层架构:分别为agent,collector和storage。其中,agent和collector均由两部分组成:source和sink,sou原创 2016-02-15 16:06:23 · 931 阅读 · 0 评论 -
HIVE和HBASE区别
HIVE和HBASE区别1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。转载 2016-02-15 15:01:49 · 454 阅读 · 0 评论 -
zookeeper基本原理及适用场景
1.1 zookeeper简介 Zookeeper 是 Hadoop 生态系统中的协同实现,是Hadoop集群管理的一个必不可少的模块,它主要来控制集群中的数据,如它管理Hadoop集群中的NameNode,还有Hbase中Master Election、Server之间状态同步等。Zookeeper 实际上是 Google 的 Chubby 一个开源的实现。Zookeep转载 2016-02-15 11:27:18 · 580 阅读 · 0 评论 -
pig hive hbase之间的关系和差异
Pig一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。)Pig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包含两个部分:Pig Interface,Pig Latin。Pig可以非常方便的处理HDFS和HBase的数据,和Hive一样,Pig可以转载 2016-02-13 16:09:56 · 709 阅读 · 0 评论 -
对于hadoop生态圈的理解
大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比转载 2016-02-13 16:08:42 · 3132 阅读 · 0 评论 -
HIVE与mysql
hive是一个基于Hadoop的数据仓库平台转载 2016-02-03 16:54:06 · 1078 阅读 · 0 评论 -
linux下安装mysql的详细教程
首先将mysql-client mysql-server mysql-connector 复制到linux 的/usr/local 目录下mysql下载地址:mysql-clientmysql-server mysql-connector然后原创 2016-02-03 10:50:59 · 421 阅读 · 0 评论