
Hadoop
linuxchyu
这个作者很懒,什么都没留下…
展开
-
Win7 eclipse Hadoop Failed to set permissions of path
背景:win7下用eclipse远程连接linux里的hadoop调试开发 12/04/24 15:32:44 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 12/04/24 1转载 2012-05-30 18:18:07 · 1592 阅读 · 1 评论 -
MapReduce框架中矩阵相乘的算法思路及其实现
关于在mapreduce框架中的两个矩阵相乘(A*B)的算法实现,有如下两种思路。。 第一,因为我们在学校课堂内的矩阵相乘的基本算法就是A的行与B的列相乘 当然要满足A的列的维数与B的行维数相同,才能满足相乘的条件。所以有如下基本思路: 让每个map任务计算A的一行乘以B的一列,最后由reduce进行求和输出。这是最原始的实现方法: 假设A(m*n) B(n*s) map的输入的格转载 2012-05-06 22:11:02 · 1728 阅读 · 2 评论 -
Hadoop MapReduce进阶 使用DataJoin包实现Join
概念: Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。 为区别于其他的data join技术,我们称其为reduce-side join。(因为我们在reducer上作大多数的工作) reduce-side join引入了一些术语及概念:转载 2012-05-30 16:50:16 · 823 阅读 · 0 评论 -
配置 eclipse 编译、开发 Hadoop(MapReduce)源代码
本文不是面向 HDFS 或 MapReduce 的配置使用,而是面向 Hadoop 本身的开发。进行开发的前提是配置好开发环境,即获取源代码并首先能够顺畅编译(build),本文即记录了在 Linux(Ubuntu 10.10)上配置 eclipse 编译 Hadoop 源代码的过程。 开发 Hadoop 应该基于哪个版本的源代码呢?一种选择是通过同步跟踪最新源代码,另一种选择是选择转载 2012-08-07 18:05:39 · 718 阅读 · 0 评论 -
基于kerberos的分布式计算平台安全
基于kerberos的分布式计算平台安全 简介 Apache基金会开源项目,分布式计算基础架构Hadoop收到越来越多的重视。基于Hadoo和HDFS的分布式计算架构的使用越来越广泛。Hadoop 首先作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由Google开发的MapReduce和GFS的启发。 但是Hadoop在设计实现的时候没有考虑过安全性的问题。因此,H转载 2012-10-03 22:24:09 · 1145 阅读 · 0 评论 -
hadoop 2.0 详细配置教程
作者:杨鑫奇 PS:文章有部分参考资料来自网上,并经过实践后写出,有什么问题欢迎大家联系我。 Hadoop 2.0集群配置详细教程 前言 Hadoop2.0介绍 Hadoop是 apache 的开源 项目,开发的主要目的是为了构建可靠,可拓展 scalable ,分布式的系 统, hadoop 是一系列的子工程的 总和,其中包含 1. hadoop common : 为其他项目提供转载 2012-10-02 00:17:29 · 1093 阅读 · 0 评论