
Hadoop
文章平均质量分 51
batilei
Temporal - Spatial Data
展开
-
Hadoop 解除 "Name node is in safe mode"
运行hadoop程序时,有时候会报以下错误: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode这个错误应该还满常见的吧(至少我运行的时候是这样的) 那我们来分析下这个错误,从字面上来理解: Name node is in s转载 2013-08-22 01:58:22 · 850 阅读 · 0 评论 -
Hadoop集群配置 - 于Ubuntu上使用VMare
转载自http://blog.youkuaiyun.com/hguisu/article/details/7237395,不确定这个是不是原作,但是anyway感谢原作者。。1 先决条件确保在你集群中的每个节点上都安装了所有必需软件:sun-JDK ,ssh,HadoopJavaTM1.5.x,必须安装,建议选择Sun公司发行的Java版本。ssh 必须安装并转载 2013-12-14 12:06:20 · 926 阅读 · 0 评论 -
Hadoop全排序中的Sampler采样器
在Partitioner组件的设计与实现中,我们已经了解过Partitioner组件的其中一个和全排序相关的实现类——TotalOrderPartitioner。 我们知道,在Hadoop中,最终的处理结果集中的数据,除非就由一个Reduce Task处理,否则结果数据集只是局部有序而非全排序。 这节我们来学习在Hadoop中进行全排序操作中除了TotalO转载 2013-12-12 23:42:12 · 1396 阅读 · 0 评论 -
Eclipse为Hadoop类设置Javadoc显示
入门时候,能在Eclipse通过javadoc看到hadoop相应函数的文档是非常有帮助的。对于菜鸟不知道怎么设置eclipse中javadoc,下面链接给了很简单的方案。http://stackoverflow.com/questions/11463360/hadoop-documentation-for-eclipse原创 2013-12-10 07:11:11 · 1182 阅读 · 0 评论 -
几篇HDFS的入门文章分享 - 简介和常用命令
看到几篇很不错的HDFS入门文章,不但深入浅出地介绍了HDFS,也介绍了HDFS的常用命令,方便入门。 Mark下(都是博客园的文章,感觉博客园的文章质量比csdn高不少啊,看来得有空搬家): (1)http://www.cnblogs.com/xia520pi/archive/2012/05/28/2520813.html (2)http://www.cnblogs.com/s原创 2013-08-13 12:43:45 · 978 阅读 · 0 评论 -
VirtualBox安装Ubuntu图文介绍
hadoop程序放到真正得cluster计算前,可以在自己的电脑上用virtualbox来跑几台虚拟机来构建一个小的cluster来看看自己的程序有没有误。 转载下下面篇在virtualbox上安装ubuntu的详细图文介绍。 http://www.micmiu.com/software/virtualbox-ubuntu-install/?utm_source=rss转载 2013-09-14 05:46:58 · 741 阅读 · 0 评论 -
Hadoop HelloWorld Examples - 求k临近点(+自定义变量+参数传入)
懂得了Map-Reduce的原理后,很容易类推,把一些常见问题也搬到Hadoop上。这次尝试下经典的求K临近点。同时为了更加深入地学习下Hadoop各种特性,除了算法上把k临近点问题映射到map - reduce上,还尝试了(1)Hadoop的传入参数(给map或reduce),(2)自定义数据类型作为value/key,(3)重写FileInputFormat和RecordReader来读入自己原创 2013-09-03 02:22:02 · 1957 阅读 · 1 评论 -
配置 生成hadoop-eclipse-plugin jar包
要想在eclipse下编写hadoop的程序,必须要在eclipse下安装个所谓的hadoop-eclipse-plugin,即插件。貌似从hadoop1.0.0版本后都不直接提供jar包了,所以必须得自己编译一个。因为是菜鸟,各种折腾了将近一天啊,参考了不少人的文章,虽然质量参差不齐。在此总结下这个艰辛的过程,也分享下那些好的文章。 基本步骤: 1假设jdk,hadoop, ec原创 2013-08-15 09:59:40 · 2460 阅读 · 0 评论 -
Hadoop HelloWord Examples -对Hadoop FileSystem进行操作 - 基于Java
我之前对hadoop的各种文件操作都是基于命令行的,但是进阶后,经常需要直接从java的代码中对HDFS进行修改。今天来练习下。 一个简单的demo,从hdfs的一个文件写到另外hdfs一个文件。 import java.util.*;import java.io.*;import org.apache.hadoop.conf.Configuration;import org.原创 2013-08-27 04:11:45 · 1624 阅读 · 0 评论 -
在eclipse下跑第一个map-reduce程序-转载分享
不得不说从一个linux,hadoop通通0起步的菜鸟,到在eclipse下跑第一个map reduce程序这一步,真的有够累的,双系统装ubuntu,jdk,eclipse,ant,hadoop各种安装配置,hadoop在命令行下运行,hadoop-eclipse-plugin编译,各种google baidu。 以上的步骤都搞完后,特别是将hadoop-eclipse-plugin.1.原创 2013-08-15 11:36:56 · 1744 阅读 · 0 评论 -
unbuntu中ant的安装和配置
一. 可以使用 sudo apt-get install ant安装,但是这种装法不好。首先安装的ant不是最新的版本,其次还要装一堆其他的附带的东西。所以我才用自己手动ant安装。二. 手动安装 1. 到Apache官网下载最新版本的ant:http://ant.apache.org/bindownload.cgi 2. 解压下载下来的.tar.gz文件:转载 2013-08-14 08:18:14 · 1713 阅读 · 0 评论 -
Ubuntu下安装Hadoop总结
终于把Hadoop的环境给配好了。在美国的第一个周末,把Ubuntu,JDK,Eclispe,Hadoop都给安装了,算圆满结束了。这下子可以正式投入实验室的工作了。 具体步骤就不说了,参考下面的Reference[1,2,3]。 这里总结下: 1:安装JDK(安装过了就不用了) 2:Ubuntu中添加一个专门使用Hadoop的用户组和用户(可选) 3:配置SSH服务原创 2013-08-12 13:35:59 · 1294 阅读 · 0 评论 -
Hadoop HelloWorld Examples - 单表连接
应该是那本"Hadoop 实战"的第4个demo了,单表连接。给出一对对的children和parents的名字,然后输出所有的grandchildren和grandparents对。 输入数据(第一列child,第二列 parent)Tom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack Alice原创 2013-08-25 11:00:25 · 1535 阅读 · 0 评论 -
分布式计算Hadoop简介
看到一篇挺不错的Hadoop简介,分享下:http://os.51cto.com/art/201209/357388.htm 转载一部分过来。 Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。 Hadoop框架中最核心设计就是:HDFS和MapReduce转载 2013-08-12 11:24:11 · 1244 阅读 · 0 评论 -
Hadoop HelloWord Examples - A Simple Sort
来了近两个星期趁还没开学都是各种活动,相对有空,抓紧时间hadoop入门。不得不说Hadoop the Definitive Guide是本好书,但是却不是一本好的入门书,一上来讲了一堆各种Hadoop架构,对与一个菜鸟来说读起来总感觉有点心虚,一行Hadoop代码没写过,一直看各种Hadoop的架构,让人感觉非常的不踏实。找来找去也只是看到一个WordCount的demo,还好实验室Xia兄推荐原创 2013-08-23 10:29:58 · 1406 阅读 · 0 评论 -
Hadoop HelloWord Examples- 求平均数
另外一个hadoop的入门demo,求平均数。是对WordCount这个demo的一个小小的修改。输入一堆成绩单(人名,成绩),然后求每个人成绩平均数,比如:// subject1.txt a 90 b 80 c 70 // subject2.txt a 100 b 90 c 80 求a,b,c这三个人的平均分。解决思路很简单,在原创 2013-08-23 21:51:03 · 1714 阅读 · 0 评论 -
命令行运行hadoop的HelloWorld,word count - 总结
简单的入门,在命令行下跑了下Hadoop自带的Helloworld,word count。 在此总结下几个关键步骤: (1) 随便把某个测试文件拷贝刀HDFS上去。一般利用命令: hadoop dfs - put [arg0] [arg1],或者hadoop dfs -copyFromLocal [arg0] [arg1] (2)向hadoop提交作用,利用命令 hadoop j原创 2013-08-13 13:19:00 · 1400 阅读 · 0 评论