
hadoop
弓永峰
关注java 分布式存储与计算
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Pig的一些基础概念及用法总结(1)
转载必须注明出处:http://www.codelast.com/ 本文可以让刚接触pig的人对一些基础概念有个初步的了解。 本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详尽的说明及转载 2013-02-19 22:50:35 · 2295 阅读 · 0 评论 -
MapReduce中使用BytesWritable类型时要注意
转载地址:http://blog.youkuaiyun.com/xcytec/article/details/20909151 在MR程序中出现错误,数据读取的内容和原文件不一致,经过定位是因为使用BytesWritable类型导致的。 原因见:http://dongxicheng.org/mapreduce-nextgen/hadoop-streaming-process-binary-data转载 2014-09-19 13:54:12 · 4019 阅读 · 0 评论 -
mapreduce shuffle分析
mapreduce的核心主要是根据map的outputKey进行排序。排序分为内排序和外排序原创 2014-06-17 22:02:24 · 816 阅读 · 0 评论 -
mapreduce shuffle 讲的很详细
转载地址: MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。 MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业转载 2013-11-19 21:19:52 · 8721 阅读 · 0 评论 -
hbase 备份及恢复
转载地址: http://lifei0327.iteye.com/blog/1249515 1, hbase自带的备份恢复工具 hbase org.apache.hadoop.hbase.mapreduce.Export 'table1' /home/fred/table1 hbase org.apache.hadoop.hbase.mapreduce.Import 'table转载 2014-05-30 10:47:12 · 8850 阅读 · 0 评论 -
hbase 表的备份
其实官方文档中 http://abloz.com/hbase/book.html#ops.backup原创 2014-05-30 10:36:49 · 1017 阅读 · 0 评论 -
zookeeper的领导者选举和原子广播
目录: 1、工作原理概述 2、Fast Leader选举算法(领导者选举) 3、Leader与Follower同步数据(原子广播) 1、工作原理概述 link:http://www.codedump.info/?p=207 zookeeper3.3.3源码分析(一)工作原理概述 阅读时参考的版本是3.3.3. 简单的说一下zookee转载 2014-05-29 22:24:30 · 1065 阅读 · 0 评论 -
zookeeper源码分析-client分析
最近在阅读 zookeeper的源码,现在把zookeeper client端的代码原创 2014-06-08 12:16:36 · 1207 阅读 · 0 评论 -
hadoop 压缩
转载请标明出处:hadoop深入研究:(七)——压缩 文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。 hadoop里支持很多种压缩格式,我们看一个表格: DEFLATE是同时使用了LZ77算法与哈夫曼编码(Huffman Coding)的一个无转载 2014-04-09 11:17:47 · 742 阅读 · 0 评论 -
hadoop分析 - HDFS上传文件
hdfs 上传文件原创 2014-04-17 22:57:49 · 967 阅读 · 0 评论 -
hbase,hdfs 数据一致性
hbase 采用的是强一致性 N: 1 (数据备份的数目) W: 1 (数据写入几个节点返回成功) R: 1 (读取数据时需要读取的备份节点个数) W + R > N 但是hdfs采用的最终一致性 N: 3 (数据备份的数目) W: 1 (数据写入几个节点返回成功),默认是1,但是可以配置: dfs.replication.min R: 1 (读取数据的时候原创 2014-01-18 14:19:28 · 4241 阅读 · 0 评论 -
How to use write and run MapReduce in eclipse on windows.
(1) Configure hadoop-eclipse-plugin-1.0.3.jar \\192.168.1.19\development\GroupM\Softwares\hadoop\hadoop-eclipse-plugin-1.0.3.jar (2) copy all the jar file in the hadoop into your classpath. (3) cop原创 2013-04-11 20:01:46 · 844 阅读 · 0 评论 -
向pig脚本中传入参数
向pig脚本中传入参数 假设你的pig脚本输出的文件是通过外部参数指定的,则此参数不能写死,需要传入。在pig中,使用传入的参数如下所示: 1 STORE A INTO '$output_dir'; 则这个“output_dir”就是个传入的参数。在调用这个pig脚本的shell脚本中,我们可以这样传入参转载 2013-02-19 22:51:59 · 2933 阅读 · 0 评论 -
Hive中小表与大表关联(join)的性能分析
Hive中小表与大表关联(join)的性能分析 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。 多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2转载 2014-08-14 22:59:52 · 1546 阅读 · 0 评论