
hadoop
文章平均质量分 81
SAN_YUN
这个作者很懒,什么都没留下…
展开
-
使用Python实现Hadoop MapReduce程序
使用Python实现Hadoop MapReduce程序原创 2013-11-19 21:06:00 · 195 阅读 · 0 评论 -
hadoop mapreduce的1TB排序
1、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个1406个节点...原创 2014-02-17 20:15:20 · 267 阅读 · 0 评论 -
用hadoop估算圆周率PI(3.1415926)的值
原文:http://thinkinginhadoop.iteye.com/blog/710847 一、hadoop不适合计算密集型的工作 以前看过一个PPT: Hadoop In 45 Minutes or Less ,记得上面说hadoop不适合计算密集型的工作,比如计算PI后100000位小数。 但是,前几天,我却发现了在hadoop自带的examples里,竟然有PiEstimat...原创 2014-02-17 20:03:46 · 1346 阅读 · 0 评论 -
Hadoop-SequenceFile code
写的例子:package mytest.mapreduce;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org...原创 2014-02-11 13:11:37 · 129 阅读 · 0 评论 -
MapReduce思想理解
MapReduce工作流程1.将输入源(Inputfiles)切割成不同的片段,每个片段的大小通常在16M-64M之间(可通过参数配置),然后启动云端程序。2.MapReduce程序基于master/slaves方式部署,在云端机器中选中一台机器运行master程序,职责包括:调度任务分配给slaves,监听任务的执行情况。3.在图形中,slave的体现形式为worker...原创 2014-02-06 11:44:11 · 177 阅读 · 0 评论 -
HDFS发展历史上的几个重大的JIRA
原文:http://blog.youkuaiyun.com/chenpingbupt/article/details/7921988HDFS发展的到现在,已经和从前有了很大的改观,陆续发生了一些比较重大的改变,比如Append的加入,Federation,HA等等。这些改变在hadoop的svn的代码库中也可以看到一些端倪,大部分重大的改变都能在svn代码库中找到对应的开发branch。在厂内的Hado...原创 2014-02-05 22:02:21 · 236 阅读 · 0 评论 -
Hadoop Metrics体系架构分析
原文:http://blog.youkuaiyun.com/chenpingbupt/article/details/7957396本文基于Hadoop 0.20.XX版本分析,和现在的Metrics2稍有不同1:概述Hadoop Metrics用来统计集群运行数据,比如接口调用次数,响应时间,队列长度等等,现阶段(0.19版本)支持为数不多的几个层级的数据,分别是dfs,jvm,rpc,me...原创 2014-02-05 22:01:11 · 260 阅读 · 0 评论 -
hadoop shell 命令总计
从远程获取文件到本地./hadoop fs -get /group/tlog/resources/rpcSpan.txt ~/b.txt更多参考: http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html原创 2014-01-11 13:52:32 · 135 阅读 · 0 评论 -
hadoop文档集合
架构概述hadoop Important Concepts 工作总结hadoop使用中的几个小细节(一) 功能介绍Hadoop的原生比较器RawComparatorHadoop在MapReduce中使用压缩详解HDFS之SequenceFile和MapFile ...原创 2013-12-28 19:31:20 · 143 阅读 · 0 评论 -
hadoop深入学习之SequenceFile
1.Hadoop’s SequenceFileSequenceFile 是 Hadoop 的一个重要数据文件类型,它提供key-value的存储,但与传统key-value存储(比如hash表,btree)不同的是,它是 appendonly的,于是你不能对已存在的key进行写操作。每一个key-value记录如下图,不仅保存了key,value值,也保存了他们的 长度。 Seque...原创 2013-12-24 21:51:26 · 164 阅读 · 0 评论 -
使用RawComparator加速Hadoop程序
http://yoyzhou.github.io/blog/2013/05/13/hadoop-write-ur-own-rawcomparator/ static class MyComparator extends WritableComparator { static { WritableComparator.define(MyWritable.class, ...原创 2013-12-23 14:53:49 · 214 阅读 · 0 评论 -
Hadoop序列化与Writable接口介绍
Hadoop序列化与Writable接口介绍http://yoyzhou.github.io/blog/2013/05/09/hadoop-serialization-and-writable-object-1/http://yoyzhou.github.io/blog/2013/05/10/hadoop-serialization-and-writable-object-2/ ...原创 2013-12-23 14:32:24 · 215 阅读 · 0 评论 -
Impala:新一代开源大数据分析引擎
大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础,之后的HBase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中。今天我们就来谈谈Hadoop系统中的一个新成员 – Impala。Impala架构分析Impala是Cloudera公司主导...原创 2014-04-18 15:51:31 · 377 阅读 · 0 评论