Hadoop
文章平均质量分 79
渐行渐远日行日近
飘于北京的无根菜鸟
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop hdfs java api 文件操作类
package test.hadoop.util; import java.util.Iterator; import java.util.Map.Entry; import org.apache.commons.lang.exception.ExceptionUtils; import org.apache.hadoop.conf.Configuration; import org.apach转载 2013-06-13 15:14:36 · 663 阅读 · 0 评论 -
Hadoop+HBase 安装配置
hadoop版本:hadoop-0.20.2 http://apache.etoak.com//hadoop/common/hadoop-0.20.2/ 安装配置Hadoop请参考:http://booby325.iteye.com/admin/blogs/1309940 HBase版本:Hbase-0.90.3 http://apache.etoak.com//hbase/hba原创 2013-06-13 15:13:14 · 485 阅读 · 0 评论 -
hbase基本概念和hbase shell常用命令用法
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 1. HBase的表结构 HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column family)。 Row Key原创 2013-06-13 15:13:18 · 467 阅读 · 0 评论 -
Hbase Java 实例
发现一HBase实例文章:http://archive.cnblogs.com/a/2178069/ HBase提供了java api来对HBase进行一系列的管理涉及到对表的管理、数据的操作等。常用的API操作有: 1. 对表的创建、删除、显示以及修改等,可以用HBaseAdmin,一旦创建了表,那么可以通过HTable的实例来访问表,每次可以往表里增加数据。 2. 插入数据 创建一个P转载 2013-06-13 15:13:16 · 616 阅读 · 0 评论 -
利用Ant构建Hadoop高效开发环境
最近Hadoop的研究中,都是利用Mockito来模拟数据进行,下一个阶段需要在Hadoop服务器上做大量的运行进行验证,同时也要为正式使用做准备。 今天考虑使用Ant来搭建一个Hadoop的开发和调试环境,不使用hadoop自带的插件。 思路如下: 1、 利用Ant在开发机器上将代码编译、打包,最终得到可执行的jar包。 2、 利用Ant的SSH属性,将ja转载 2013-06-13 15:14:01 · 516 阅读 · 0 评论 -
《Hadoop实战》的笔记-2、Hadoop输入与输出
这一问题本书只在第三章简单说了一下读写HDFS,虽然能说明问题,但是本着第一遍读书应该把书读厚的原则,我觉得很有必要自行展开一番。再说凡是万变不离其宗嘛,任何程序都是从“输入-->计算-->输出”。先说输入,Hadoop的默认的输入方式是将输入的每一行视为一条记录,该行文件偏移量为key,内容为value。这样当然不一定能满足所有的业务需要。因此,一方面Hadoop也提供了很多其他的输入格式,另一转载 2013-06-13 15:14:03 · 633 阅读 · 0 评论 -
Hadoop:The Definitive Guid 总结 Chapter 4 Hadoop I/O
Hadoop:The Definitive Guid 总结 Chapter 4 Hadoop I/O 1.数据的完整性 1).HDFS的数据完整性 HDFS以透明方式校验所有写入它的数据,并在默认设置下,会在读取数据时验证校验和。针对数据的每个io.bytes.per.checksum字节都会创建一个单独的校验和。默认值为512字节;DataNode负责在存储数据(包括数据的校验转载 2013-06-13 15:14:46 · 664 阅读 · 0 评论 -
Hadoop:The Definitive Guid 总结 Chapter 1~2 初识Hadoop、MapReduce
1.数据存储与分析 问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长 从多个磁盘上进行并行读写操作是可行的,但是存在以下几个方面的问题: 1).第一个问题是硬件错误。硬件越多出错的几率就越大。一种常用的解决方式是数据冗余,保留多分拷贝,即使一份数据处理出错,还有另外的数据。HDFS使用的也是类似的方式,但稍有不同。 2).第二个问题是数据处理的相关转载 2013-06-13 15:14:34 · 619 阅读 · 0 评论 -
Hadoop:The Definitive Guid 总结 Chapter 3 Hadoop分布式文件系统
1.HDFS的设计 HDFS设计的适合对象:超大文件(TB级别的文件)、流式数据访问(一次写入,多次读取)、商用硬件(廉价硬件) HDFS设计不适合的对象:低时间延迟的数据访问、大量的小文件、多用户写入,任意修改文件 2.HDFS的概念 1).数据块(Block) HDFS中Block的大小默认是64M,小于块大小的的文件并不占据整个块的全部空间(而是将文件大小作为块的转载 2013-06-13 15:14:43 · 681 阅读 · 0 评论 -
Hadoop:The Definitive Guid 总结 Chapter 5 MapReduce应用开发
用MapReduce来编写程序,有几个主要的特定流程,首先写map函数和reduce函数,最好使用单元测试来确保函数的运行符合预期,然后,写一个驱动程序来运行作业,要看这个驱动程序是否可以运行,之后利用本地IDE调试,修改程序 实际上权威指南的一些配置已经过时 所以这里很多地方不做介绍 1.配置API Hadoop拥有很多xml配置文件,格式遵从一般xml的要求 见实例 Ex转载 2013-06-13 15:14:48 · 749 阅读 · 0 评论 -
Hadoop + eclipse + linux 单机运行 WordCount
Eclipse版本3.5, Hadoop版本hadoop-0.20.2 1. 安装Hadoop 下载hadoop-0.20.2, http://www.apache.org/dyn/closer.cgi/hadoop/core/ 解压Hadoop并配置Hadoop home 环境变量$ gzip -d hadoop-0.20.2.tar.gz. 切换到Hadoop原创 2013-06-13 15:13:12 · 900 阅读 · 0 评论
分享