
hadoop
弓永峰
关注java 分布式存储与计算
展开
-
Apache Pig的一些基础概念及用法总结(1)
转载必须注明出处:http://www.codelast.com/本文可以让刚接触pig的人对一些基础概念有个初步的了解。本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详尽的说明及转载 2013-02-19 22:50:35 · 2286 阅读 · 0 评论 -
MapReduce中使用BytesWritable类型时要注意
转载地址:http://blog.youkuaiyun.com/xcytec/article/details/20909151在MR程序中出现错误,数据读取的内容和原文件不一致,经过定位是因为使用BytesWritable类型导致的。原因见:http://dongxicheng.org/mapreduce-nextgen/hadoop-streaming-process-binary-data转载 2014-09-19 13:54:12 · 4001 阅读 · 0 评论 -
mapreduce shuffle分析
mapreduce的核心主要是根据map的outputKey进行排序。排序分为内排序和外排序原创 2014-06-17 22:02:24 · 805 阅读 · 0 评论 -
mapreduce shuffle 讲的很详细
转载地址:MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。 MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业转载 2013-11-19 21:19:52 · 8706 阅读 · 0 评论 -
hbase 备份及恢复
转载地址: http://lifei0327.iteye.com/blog/12495151, hbase自带的备份恢复工具 hbase org.apache.hadoop.hbase.mapreduce.Export 'table1' /home/fred/table1 hbase org.apache.hadoop.hbase.mapreduce.Import 'table转载 2014-05-30 10:47:12 · 8840 阅读 · 0 评论 -
hbase 表的备份
其实官方文档中http://abloz.com/hbase/book.html#ops.backup原创 2014-05-30 10:36:49 · 997 阅读 · 0 评论 -
zookeeper的领导者选举和原子广播
目录: 1、工作原理概述 2、Fast Leader选举算法(领导者选举) 3、Leader与Follower同步数据(原子广播)1、工作原理概述link:http://www.codedump.info/?p=207zookeeper3.3.3源码分析(一)工作原理概述阅读时参考的版本是3.3.3.简单的说一下zookee转载 2014-05-29 22:24:30 · 1057 阅读 · 0 评论 -
zookeeper源码分析-client分析
最近在阅读 zookeeper的源码,现在把zookeeper client端的代码原创 2014-06-08 12:16:36 · 1194 阅读 · 0 评论 -
hadoop 压缩
转载请标明出处:hadoop深入研究:(七)——压缩文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。hadoop里支持很多种压缩格式,我们看一个表格:DEFLATE是同时使用了LZ77算法与哈夫曼编码(Huffman Coding)的一个无转载 2014-04-09 11:17:47 · 731 阅读 · 0 评论 -
hadoop分析 - HDFS上传文件
hdfs 上传文件原创 2014-04-17 22:57:49 · 954 阅读 · 0 评论 -
hbase,hdfs 数据一致性
hbase 采用的是强一致性N: 1 (数据备份的数目)W: 1 (数据写入几个节点返回成功)R: 1 (读取数据时需要读取的备份节点个数)W + R > N但是hdfs采用的最终一致性N: 3 (数据备份的数目)W: 1 (数据写入几个节点返回成功),默认是1,但是可以配置: dfs.replication.minR: 1 (读取数据的时候原创 2014-01-18 14:19:28 · 4221 阅读 · 0 评论 -
How to use write and run MapReduce in eclipse on windows.
(1) Configure hadoop-eclipse-plugin-1.0.3.jar\\192.168.1.19\development\GroupM\Softwares\hadoop\hadoop-eclipse-plugin-1.0.3.jar(2) copy all the jar file in the hadoop into your classpath.(3) cop原创 2013-04-11 20:01:46 · 829 阅读 · 0 评论 -
向pig脚本中传入参数
向pig脚本中传入参数假设你的pig脚本输出的文件是通过外部参数指定的,则此参数不能写死,需要传入。在pig中,使用传入的参数如下所示:1STORE A INTO'$output_dir';则这个“output_dir”就是个传入的参数。在调用这个pig脚本的shell脚本中,我们可以这样传入参转载 2013-02-19 22:51:59 · 2915 阅读 · 0 评论 -
Hive中小表与大表关联(join)的性能分析
Hive中小表与大表关联(join)的性能分析 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2转载 2014-08-14 22:59:52 · 1530 阅读 · 0 评论