
hadoop
文章平均质量分 67
落涯
最近研究nodejs,欢迎交流
展开
-
hadoop的新旧api
hadoop的core下面有两种api,新的api在org.apache.hadoop.mapreduce.*包下面,而旧的api则在org.apache.hadoop.mapred.*下。http://blog.youkuaiyun.com/sun_168/article/details/75773461. 首先第一条,也是小菜今天碰到这些问题的原因,新旧API不兼容。所以,以前用转载 2013-06-08 13:43:11 · 1220 阅读 · 1 评论 -
Hadoop的Configuration类冲突问题
ERROR [org.apache.hadoop.conf.Configuration] - Failed to set setXIncludeAware(true) for parser org.apache.xerces.jaxp.DocumentBuilderFactoryImpl@9e1be92:java.lang.UnsupportedOperationException: This p原创 2013-05-23 20:47:31 · 2119 阅读 · 0 评论 -
hadoop倒排索引
看到很多的hadoop关于倒排索引的例子,但是我想写一个属于我自己的,加入了本人对于hadoop中mapreduce的理解。有下面三篇文章:accident.txtCHENGDU - Death toll from a colliery blast on Saturday in southwest China's Sichuan Province rose to 27, local原创 2013-05-13 23:50:52 · 2353 阅读 · 0 评论 -
hadoop mapreduce多表关联
假设有如下两个文件,一个是表是公司和地址的序号的对应,一个表是地址的序号和地址的名称的对应。表1:A:Beijing Red Star 1A:Shenzhen Thunder 3A:Guangzhou Honda 2A:Beijing Rising 1A:Guangzhou Development Bank 2A:Tencent 3A:Back of Beijing 1表2原创 2013-05-07 21:08:36 · 2166 阅读 · 0 评论 -
hadoop mapreduce求平均分
求平均分的关键在于,利用mapreduce过程中,一个key聚合在一起,输送到一个reduce的特性。假设三门课的成绩如下:china.txt张三 78李四 89王五 96赵六 67english.txt张三 80李四 82王五 84赵六 86math.txt张三 88李四 99王五 66赵六 72m原创 2013-05-07 20:53:14 · 1999 阅读 · 0 评论 -
hadoop mapreduce数据排序
有如下3个输入文件:file0232654321575665223file159562265092file226546由于reduce获得的key是按字典顺序排序的,利用默认的规则即可。// map将输入中的value化成IntWritable类型,作为输出的key public static class Map extends Map原创 2013-05-07 20:38:33 · 1418 阅读 · 0 评论 -
hadoop mapreduce数据去重
假设我们有下面两个文件,需要把重复的数据去除。file02012-3-1 a2012-3-2 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-7 c2012-3-3 cfile12012-3-1 b2012-3-2 a2012-3-3 b2012-3-4 d2012-3-5 a2012-3-6 c原创 2013-05-07 19:58:00 · 1946 阅读 · 0 评论 -
hdfs基本操作,上传、下载、删除
hadoop程序中对hdfs的操作必不可少,粘贴一个工具类,分享给大家。import java.io.File;import java.io.FileInputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.ap原创 2013-05-07 15:31:50 · 1688 阅读 · 0 评论 -
安装ucarp(支持IP的动态替换)
libpcap (http://www.tcpdump.org/) must be installed on your system, withdevelopment files (headers).http://download.pureftpd.org/pub/ucarp/READMEucarp的下载页说得很明白,要先安装libpcap包,好吧,先安装它吧。下载libpcap的最原创 2013-03-20 00:46:02 · 1859 阅读 · 0 评论 -
Ubuntu系统平台下安装Libpcap
下载libpcap的最新版本http://www.tcpdump.org/#documentation安装flex软件包sudo apt-get install flex安装bison软件包sudo apt-get install bisontar命令解压下载的软件包,在解压的目录下执行下列命令./configuremakesudo make install原创 2013-02-18 14:51:24 · 589 阅读 · 0 评论 -
hadoop流
hadoop流提供了一个api,允许用户保用任何脚本语言写Map函数或Reduce函数。Hadoop流的关键是,它使用UNIX标准作为程序与Hadoop之间的接口。因此,任何程序只要可以从标准流中读取数据并且可以写入数据到标准输出流,那么就可以通过Hadoop流使用其它语言编写MapReduce程序的Map函数或Reduce函数。如下面的示例bin/hadoop jar contrib/s原创 2013-02-03 15:10:21 · 844 阅读 · 0 评论 -
hadooop的wordcount程序
创建项目文件夹sudo mkdir -p ~/hpro/com/vs/example创建主程序类sudo gedit ~/hpro/com/vs/example/WordCount.javajava类如下package com.vs.example;import java.io.IOException;import java.util.*;import原创 2013-02-03 11:25:04 · 1699 阅读 · 2 评论 -
hadoop的namenode起不来,Directory /tmp/hadoop-hadoop/dfs/name is in an inconsistent state
hadoop第一次起启动时没有问题,但机子重启之后就会出现irectory /tmp/hadoop-hadoop/dfs/name does not exist. 2013-02-02 16:49:29,297 ERROR org.apache.hadoop.hdfs.server.namenode.FSNamesystem: FSNamesystem initialization faile原创 2013-02-02 17:01:39 · 14056 阅读 · 1 评论 -
hadoop的安装
下载hadoop的压缩包http://www.apache.org/dyn/closer.cgi/hadoop/core本文使用的版本为1.1.1以hadoop用户登录su - hadoop把文件hadoop-1.1.1.tar.gz复制到/home/hadoop文件夹下sudo cp 源地址 /home/hadoop/解压到当前文件夹cd原创 2013-02-01 17:38:41 · 981 阅读 · 0 评论 -
hadoop配置,新建用户,及安装SSH
新建用户组sudo addgroup hadoop创建hadoop用户sudo adduser -ingroup hadoop hadoop给予hadoop用户所有权限sudo gedit /etc/sudoers在打开的文件中,在root ALL=(ALL:ALL) ALL下添加hadoop ALL=(ALL:ALL) ALLha原创 2013-02-01 17:09:15 · 735 阅读 · 0 评论 -
hadoop环境配置,ubuntu下安装javase 6
首先,去java的官网下载jdk http://http://www.oracle.com/technetwork/java/javase/downloads注意要下载1.6版本的。选择文件名称类似jdk-***-linux-i586.bin复制安装文件到/usr/lib/jvm(具体地址可自由选择)修改文件权限sudo chmod u+x jdk-***-linux-i5原创 2013-02-01 16:56:39 · 577 阅读 · 0 评论