
Hadoop
文章平均质量分 63
shenlan211314
2010年7月-今:中国人民大学 信息学院 硕士在读
2006年9月-2010年7月:河北大学 数学与计算机学院 本科
2003年9月-2006年9月:辛集中学
展开
-
Pig系列之一:Pig简介
Pig是这样一个平台,它能够对由高级语言编写的数据分析程序组成的大型数据集进行分析、评估。Pig程序最突出的优势是它的结构能够经受得住高度并行化的检验,这个特性让它能够处理大型的数据集。 目前,Pig的底层由一个编译器组成,它在运行的时候会产生一些Map-Reduce程序序列,并且这里大规模的并行执行依然存在(例如,Hadoop子工程)。当前,Pig的语言层是由一叫做Pig Latin的正文型语言组成,它有如下的特点:1.易于编程:对于那些简单的并且不易并行的数据分析任务达并不需要实现并行执行的目标。原创 2011-01-04 20:28:00 · 1642 阅读 · 1 评论 -
ZooKeeper系列之三:ZooKeeper的安装
ZooKeeper的安装模式分为三种,分别为:单机模式(stand-alone)、集群模式和集群伪分布模式。ZooKeeper 单机模式的安装相对比较简单,如果第一次接触ZooKeeper的话,建议安装ZooKeeper单机模式或者集群伪分布模式。1)单机模式首先,从Apache官方网站下载一个ZooKeeper的最近稳定版本。http://hadoop.apache.org/zookeeper/releases.html作为国内用户来说,选择最近的的源文件服务器所在地,能够节省不少的时间。http://l原创 2011-02-15 08:05:00 · 45755 阅读 · 10 评论 -
ZooKeeper系列之七:ZooKeeper命令行工具
<br /><br />当启动ZooKeeper服务成功之后,输入下述命令,连接到ZooKeeper服务:<br />zkCli.sh –server 10.77.20.23:2181<br />连接成功后,系统会输出ZooKeeper的相关环境以及配置信息,并在屏幕输出“Welcome to ZooKeeper”等信息。<br />输入help之后,屏幕会输出可用的ZooKeeper命令,如下图1所示:<br /><br /><br /><br /><br />图1:ZooKeeper命令原创 2011-02-15 23:32:00 · 62360 阅读 · 1 评论 -
ZooKeeper系列之十:ZooKeeper的一致性保证及Leader选举
<br /> 1)一致性保证<br /> <br /><br />Zookeeper是一种高性能、可扩展的服务。Zookeeper的读写速度非常快,并且读的速度要比写的速度更快。另外,在进行读操作的时候,ZooKeeper依然能够为旧的数据提供服务。这些都是由于ZooKeepe所提供的一致性保证,它具有如下特点:<br /> 顺序一致性<br />客户端的更新顺序与它们被发送的顺序相一致。<br /><br /><br />原子性<br />更新操作要么成功要么失败,没有第三种结果。<br />原创 2011-02-15 23:38:00 · 26046 阅读 · 7 评论 -
ZooKeeper系列之四:ZooKeeper的配置
<br /><br />ZooKeeper的功能特性通过ZooKeeper配置文件来进行控制管理(zoo.cfg配置文件)。ZooKeeper这样的设计其实是有它自身的原因的。通过前面对ZooKeeper的配置可以看出,对ZooKeeper集群进行配置的时候,它的配置文档是完全相同的(对于集群伪分布模式来说,只有很少的部分是不同的)。这样的配置方使得在部署ZooKeeper服务的时候非常地方便。另外,如果服务器使用不同的配置文件,必须要确保不同配置文件中的服务器列表相匹配。<br /><br /><br /原创 2011-02-15 08:18:00 · 51345 阅读 · 2 评论 -
ZooKeeper系列之九:ZooKeeper API简介及编程
<br /><br />1)ZooKeeper API简介<br />ZooKeeper API共包含5个包,分别为:org.apache.zookeeper,org.apache.zookeeper.data,org.apache.zookeeper.server,org.apache.zookeeper.server.quorum和org.apache.zookeeper.server.upgrade。其中org.apache.zookeeper包含ZooKeeper类,它我们编程时最常用的类文件。<b原创 2011-02-15 23:34:00 · 31238 阅读 · 2 评论 -
ZooKeeper系列之六:ZooKeeper四字命令
<br /><br />ZooKeeper支持某些特定的四字命令字母与其的交互。它们大多是查询命令,用来获取ZooKeeper服务的当前状态及相关信息。用户在客户端可以通过telnet或nc向ZooKeeper提交相应的命令。ZooKeeper常用四字命令见下表1所示:<br />表1:ZooKeeper四字命令<br />ZooKeeper四字命令<br />功能描述<br />conf<br />输出相关服务配置的详细信息。<br />cons<br />列出所有连接到服务器的客户端的完全的连接/会话的原创 2011-02-15 23:30:00 · 35276 阅读 · 0 评论 -
ZooKeeper系列之八:ZooKeeper的简单操作
<br /><br />1)使用ls命令来查看当前ZooKeeper中所包含的内容:<br />[zk: 10.77.20.23:2181(CONNECTED) 1] ls /<br />[zookeeper]<br />2)创建一个新的znode,使用create /zkmyData。这个命令创建了一个新的znode节点“zk”以及与它关联的字符串:<br />[zk: 10.77.20.23:2181(CONNECTED) 2] create /zkmyData<br />Created /zk原创 2011-02-15 23:33:00 · 42186 阅读 · 5 评论 -
Pig系列之二:Pig的安装和配置
Pig的安装和配置1 Pig的安装条件 Hadoop 0.20.2Pig有两种运行模式:Local模式和MapReduce模式。如果需要让作业在分布式环境下运行,则需要安装Hadoop,否则用户可以选择不安装。另外,当前Hadoop最新的版本为0.20.2,当然用户也可以选择安装其它版本,不过这里建议安装最新的Hadoop版本。因为新的版本修正了以前版本中的一些错误,并且添加了新的特性[1]。Java 1.6建议安装Java 1.6以上的版本。Java环境对于Pig来说是必须的(推荐从SUN官方网站上下原创 2011-04-15 20:44:00 · 9460 阅读 · 0 评论 -
淘宝数据平台与产品部官方博客:tbdata
现在淘宝也已经推出了自己的关于云计算的官方博客,见http://www.tbdata.org/ 相对于其它研究云计算的公司来说,比如雅虎,比如阿里巴巴、比如amazon、还比如百度等等来说,淘宝还算是大方,提供的资料相比较之下确实是丰富了不少~ 这对广大云计算学习者来说确实是意见不错的事情,希望能对广大云计算学习者、研究者有所帮助!原创 2011-06-08 13:48:00 · 2018 阅读 · 0 评论 -
ZooKeeper系列之五:ZooKeeper的运行
<br />我们这里所介绍的是对应 ZooKeeper系列之三:ZooKeeper的安装 模式的运行。<br /> <br />1)单机模式<br /><br />用户可以通过下面的命令来启动ZooKeeper服务:<br />zkServer.sh start<br />这个命令默认情况下执行ZooKeeper的conf文件夹下的zoo.cfg配置文件。当运行成功用户会看到类似如下的提示界面:<br />root@ubuntu:~# zkServer.sh start<br />JMX enabled原创 2011-02-15 08:27:00 · 64980 阅读 · 3 评论 -
ZooKeeper系列之二:ZooKeeper数据模型、命名空间以及节点的概念
16.1.3数据模型和层次命名空间ZooKeeper提供的命名空间与标准的文件系统非常相似。一个名称是由通过斜线分隔开的路径名序列所组成的。ZooKeeper中的每一个节点是都通过路径来识别。下图16-1是Zookeeper中节点的数据模型,这种树形结构的命名空间操作方便且易于理解。图16-1:ZooKeeper层次命名空间16.1.4 ZooKeeper中节点和临时节点通过上一节的内容,读者可以了解到在ZooKeeper中存在着节点的概念,另外这些节点是通过像树一样的结构来进行维护的,并且每一个节点通过路原创 2011-01-31 12:41:00 · 24597 阅读 · 0 评论 -
ZooKeeper系列之一:ZooKeeper简介
ZooKeeper是一个为分布式应用所设计的分布的、开源的协调服务。分布式的应用可以建立在同步、配置管理、分组和命名等服务的更高级别的实现的基础之上。ZooKeeper意欲设计一个易于编程的环境,它的文件系统使用我们所熟悉的目录树结构。ZooKeeper使用Java所编写,但是支持Java和C两种编程语言。 众所周知,协调服务非常容易出错,但是却很难恢复正常,例如,协调服务很容易处于竞态以至于出现死锁。我们设计ZooKeeper的目的是为了减轻分布式应用程序所承担的协调任务。原创 2011-01-31 12:19:00 · 22333 阅读 · 6 评论 -
ZooKeeper中的锁机制
<br />加锁:<br />ZooKeeper将按照如下方式实现加锁的操作:<br /><br /><br />1)ZooKeeper调用create()方法来创建一个路径格式为“_locknode_/lock-”的节点,此节点类型为sequence(连续)和ephemeral(临时)。也就是说,创建的节点为临时节点,并且所有的节点连续编号,即“lock-i”的格式。<br />2)在创建的锁节点上调用getChildren()方法,来获取锁目录下的最小编号节点,并且不设置watch。<br />3)步骤原创 2011-01-19 12:35:00 · 5172 阅读 · 2 评论 -
HBase入门篇2
首先声明,这篇文章是转帖的,原文出处为:http://www.javabloger.com/article/apache-hbase-shell-and-java-api-html.html如果作者不同意转帖,请联系我,我会马上删除,谢谢! 本篇文章讲述用HBase Shell命令 和 HBase Java API 对HBase 服务器 进行操作。在此之前需要对HBase的总体上有个大概的了解。比如说HBase服务器内部由哪些主要部件构成?HBase的内部工作原理是什么?我想学习任何一项知识、技术的转载 2011-01-22 09:54:00 · 1387 阅读 · 1 评论 -
HBase入门篇1
<br />首先声明,这篇文章是转帖的,原文出处为:<br />http://www.javabloger.com/article/apache-hbase-shell-and-install-key-value.html<br />如果作者不同意转帖,请联系我,我会马上删除,谢谢!<br /> <br />HBase是什么? <br /> HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这转载 2011-01-22 09:53:00 · 1827 阅读 · 1 评论 -
Hadoop In Action
继Hadoop.The.Definitive.Guide以及Pro Hadoop之后的又一本Hadoop的书籍-《Hadoop In Action》。需要者请再次留言,我会以邮件形式与大家分享~谢谢~~原创 2011-01-22 22:52:00 · 1710 阅读 · 2 评论 -
HBase入门篇4
首先声明,这篇文章是转帖的,原文出处为:http://www.javabloger.com/article/apache-hbase-hadoop.html如果作者不同意转帖,请联系我,我会马上删除,谢谢!前几篇文章讲述了 HBase的安装、Hbase命令和API的使用、HBase简单的优化技巧,《HBase入门篇4》这篇文章是讲述把HBase的数据放在HDFS上的点滴过程。目前对与HBase我是一个绝对的新手,如果在文章中有任何我理解有错误的地方请各位指正,谢谢。 Ok,进行正题转载 2011-01-22 09:55:00 · 1260 阅读 · 0 评论 -
HBase入门篇5
<br />首先声明,这篇文章是转帖的,原文出处为:<br />http://www.javabloger.com/article/hbase-cluster-replication.html<br />如果作者不同意转帖,请联系我,我会马上删除,谢谢!<br /> <br />在上以篇中曾经讲述过HBase在分布式中的架构,这篇文章将会讲述HBase在分布式环境中是如何排除单点故障的(SPFO),做一个小实验讲述HBase在分布式环境中的高可用性,亲眼看到一些现象,延伸一些思考的话题。<br />转载 2011-01-22 09:58:00 · 1489 阅读 · 0 评论 -
MySQL向Hive/HBase的迁移工具
<br />首先声明,这篇文章是转帖的,原文出处为:<br />http://www.javabloger.com/article/hadoop-hive-mysql-sqoop.html<br />如果作者不同意转帖,请联系我,我会马上删除,谢谢!<br /> <br /> Apache Hive是目前大型数据仓库的免费首选产品之一,使用Apache Hive的人是不会期望在小数据量上做什么文章,例如把MySQL中的数据搬到Hive/HBase中去,那样的话原先很快能执行完毕的SQL,估计在转载 2011-01-22 09:58:00 · 3324 阅读 · 0 评论 -
HBase入门篇3
首先声明,这篇文章是转帖的,原文出处为:http://www.javabloger.com/article/apache-hbase-shell-and-java-api-html.html如果作者不同意转帖,请联系我,我会马上删除,谢谢!前两篇文件分别说到了我在学习HBase中的一些入门经验,而《HBase 入门3》这篇文章浅显的从几个方面谈谈HBase的一些优化技巧,只能作为我学习笔记的一部分,因为学多了怕忘,留给自己以后看看。1 修改 linux 系统参数 Linux系统最大可打开文转载 2011-01-22 09:55:00 · 1275 阅读 · 0 评论 -
HBase技术介绍
<br />首先声明,这篇文章是转帖的,原文出处为:<br />http://www.searchtb.com/2011/01/understanding-hbase.html<br />如果作者不同意转帖,请联系我,我会马上删除,谢谢!HBase简介<br />HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。<br />HBase是Google Bigtable的开源实转载 2011-01-23 09:40:00 · 1556 阅读 · 1 评论 -
GangLia简介
GangLia简介Ganglia是一个针对高性能分布式系统(例如,集群、网格、云计算等)所设计的可扩展监控系统。该系统基于一个分层的体系结构,并能够支持2000个节点的集群。它允许用户能够远程监控系统的实时或历史统计数据,包括:CPU负载均衡、网络利用率等。Ganglia依赖于一个基于组播的监听/发布协议来监控集群的状态。Ganglia系统的实现综合了多种技术,包括:XML(数据描述)、XDR翻译 2012-04-02 15:47:03 · 6984 阅读 · 0 评论