
hadoop
文章平均质量分 83
MGRsilicon
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用 Python 编写 Hadoop MapReduce 程序
使用 Python 编写 Hadoop MapReduce 程序 以前写 Hadoop 的 MapReduce 程序时,使用的是 Java ,利用 Java 写起来是轻车熟路,没有问题,但是使用 Java 很明显的一个弊端就是每次都要编码、打包、上传、执行,还真心是麻烦,想要更加简单的使用 Hadoop 的运算能力,想要写 MapReduce 程序不那么复杂。还真是个问题。 仔细考虑...原创 2012-12-23 15:17:22 · 312 阅读 · 0 评论 -
Hadoop Shell命令大全
Hadoop Shell命令hadoop支持命令行操作HDFS文件系统,并且支持shell-like命令与HDFS文件系统交互,对于其它的文件系统LocalFS、HFTP FS、S3 FS等。对于大多数 程序猿/媛 来说,shell-like命令行操作都是比较熟悉的,其实这也是Hadoop的极大便利之一,至少对于想熟悉乃至尽快熟练操作HDFS的人来说。由于平时在工作中经常用到Hadoo...原创 2013-01-15 12:00:55 · 352 阅读 · 0 评论 -
MapReduce设计模式:Local Aggregation
MapReduce设计模式:Local AggregationMapReduce是Google提出的一个软件架构,用于大规模数据集的并行计算。其中Map和Reduce是其主要思想,都是从函数式编程中借过来的,还有矢量编程的影子在里面。MapReduce编程模式极大的简化了开发人员的并发编程模型处理。开发者只需要关心如何分割、调度、计算、错误处理等,其他传输、管理、冗余、容错等都由Map...原创 2013-01-16 14:43:00 · 227 阅读 · 0 评论 -
MapReduce设计模式:Filtering
MapReduce设计模式:Filtering 在上一节中,我们学习了MapReduce的设计模式之一:Local Aggregation;这个更像是对MapReduce的优化,确保数据能够准确、快速、高效的运行。本节学习的Filtering模式则是从另外一个角度来看数据。 在Filtering模式下,我们不是想改动源数据,只是想得到源数据的子集;该集合有可能很小,如TOP-K...原创 2013-01-17 21:09:33 · 189 阅读 · 0 评论 -
MapReduce设计模式:Numerical Computation
MapReduce设计模式:Numerical Computation 我们已经学习了Local Aggregation和Filtering这两种设计模式,本节我们继续学习另外一种:Numerical Computation。这种模式实际上是进行数学运算,即对于一系列输入(v1,v2,v3,...vn),f定义为某种运算法则,使得x=f(v1,v2,v3,...,vn),f运算法...原创 2013-01-18 17:21:32 · 215 阅读 · 0 评论 -
MapReduce设计模式:Joins
MapReduce设计模式:Joins Join这种模式在MapReduce中也是经常出现,首先我们借助于SQL中的概念来理解下Join的内容,对于熟悉SQL的读者可以快速略过该部分:假如由集合A和B,各有数个记录,记录的内容可以参考SQL中的行数据;其中A中id字段和B中的id字段相同,可以参看这里:http://www.w3schools.com/sql/sql_join...原创 2013-01-21 10:59:01 · 175 阅读 · 0 评论 -
MapReduce设计模式:Chaining
MapReduce设计模式:Chaining Chaining这种设计模式非常重要,主要是因为你通常无法通过单个MapReduce Job来完成工作;某些Job必须串行,因为前者Job的输出会成为下个Job的输入;某些Job可以并行,因为Job运行之间没有关系;有些Job的Mapper是对日志的重复处理,需要将代码规范化。不管怎么说,不能靠单个MapReduce程序就完成工作是我们的挑...原创 2013-01-24 21:12:35 · 203 阅读 · 0 评论