
hadoop
文章平均质量分 72
sanfendi
这个作者很懒,什么都没留下…
展开
-
Hadoop读书笔记——基础知识二
Hadoop数据类型 为了让键/值对可以在集群上移动,MapReduce框架提供了一种序列化键/值对的方法。因此,只有那些支持这种序列化的类能够在框架中充当键/值。 实现Writable接口的类可以是值; 实现WritableComparable接口的类可以是键/值。键/值对经常使用的数据类型列表。这些类均用于实现WritableComparable接口。原创 2014-04-14 13:49:12 · 1928 阅读 · 0 评论 -
hadoop中文分词、词频统计及排序
有如图所示的输入文件。其中第一列代表ip地址,之后的偶数列代表搜索词,数字(奇数列)代表搜索次数,使用"\t"分隔。现在需要对搜索词进行分词并统计词频,此处不考虑搜索次数,可能是翻页,亦不考虑搜索链接的行为。原创 2014-08-17 11:24:50 · 15624 阅读 · 4 评论 -
Hadoop MapReduce纵表转横表 与 横表转纵表
输入数据如下:以\t分隔0-3岁育儿百科 书 230-5v液位传感器 50-5轴承 20-6个月奶粉 230-6个月奶粉c2c报告 230-6个月奶粉在线购物排名 230-6个月奶粉市场前景 230-6个月配方奶粉 230.001g电子天平 50.01t化铝炉 20.01吨熔铝合金炉 20.03吨化镁炉原创 2014-08-24 10:37:51 · 3298 阅读 · 0 评论 -
原生态在hadoop上运行java程序
第一种:原生态运行jar包1,利用eclipse编写Map-Reduce方法,一般引入hadoop-core-1.1.2.jar。注意这里eclipse里没有安装hadoop的插件,只是引入其匝包,该eclipse可以安装在windows或者linux中,如果是在windows中安装的,且在其虚拟机安装的linux,可以通过共享文件夹来实现传递。2,编写要测试的数据,如命名为tem转载 2014-05-31 14:19:52 · 1721 阅读 · 0 评论 -
MapReduce数据连接
对于不同文件中的数据,有时候有对应关系,需要进行连接(join),获得一个新的文件以便进行分析。比如有两个输入文件a.txt,b.txt,其中的数据格式分别如下1 a2 b3 c4 d1 good2 bad3 ok4 hello需要将其连接成一个新的如下的文件:a goodb badc okd hello处理步骤可以分成两步:1.map阶段,将两个输入文件原创 2014-05-31 14:13:58 · 2164 阅读 · 0 评论 -
Hadoop读书笔记——基础知识
Hadoop in Action读书笔记。Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。专为离线处理和大规模数据分析而设计,避免耗时的数据传输问题,适合一次写入,多次读取。特性:方便、健壮、可扩展、简单。MapReduce分为两个阶段:mapping 和 reducing每阶段定义一个数据处理函数,称为mapper和reducer在mappin原创 2014-04-13 20:34:23 · 2074 阅读 · 0 评论 -
MapReduce 异常 LongWritable cannot be cast to Text
有一个txt文件,内容的格式是这样子的:深圳文化衫订做 5729944深圳厂家t恤批发 5729945深圳定做文化衫 5729944文化衫厂家 5729944订做文化衫 5729944深圳t恤厂家 5729945前面是搜索关键词,后面的是所属的分类ID,以tab分隔,想统计分类情况。于是用下面的MapReduce程序跑了下:import java.io.IOExcepti原创 2014-04-25 17:47:05 · 16562 阅读 · 0 评论 -
HDFS——如何获取文件的属性信息
可以用bin/hadoop fs -ls 来读取HDFS上的文件属性信息。也可以采用HDFS的API来读取。如下:import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.P原创 2014-04-18 09:46:08 · 4222 阅读 · 0 评论 -
HDFS——如何从HDFS上读取文件内容
用这个命令bin/hadoop fs -cat 可以将HDFS上的文件内容读取到控制台。也可以采用HDFS的API来读取。如下:import java.net.URI;import java.io.InputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSy原创 2014-04-18 09:26:14 · 3917 阅读 · 0 评论 -
HDFS——如何将文件从HDFS上删除
用命令行bin/hadoop fs -rm(r) 可以删除hdfs上的文件(夹)用HDFS的API也是可以的。如下:import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.原创 2014-04-18 09:11:48 · 7438 阅读 · 0 评论 -
HDFS——如何列出目录下的所有文件
可以用bin/hadoop fs -ls 来读取HDFS某一目录下的文件列表及属性信息。也可以采用HDFS的API来读取。如下:import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop原创 2014-04-18 10:03:25 · 10544 阅读 · 0 评论 -
HDFS——如何将文件从HDFS复制到本地
下面两个命令是把文件从HDFS上下载到本地的命令。get使用方法:hadoop fs -get [-ignorecrc] [-crc] 复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例:hadoop fs -get /user/hadoop/file localfilehado原创 2014-04-18 08:36:49 · 32224 阅读 · 0 评论 -
HDFS——如何将文件复制到HDFS
在Hadoop中用作文件操作的主类位于org.apache.hadoop.fs包中。基本的文件操作有open、read、write和close。实际上,Hadoop的文件API是通用的,可用于HDFS以外的文件系统。Hadoop文件API的起点是FileSystem类,这是一个与文件系统交互的抽象类,存在不同的具体实现子类来处理HDFS和本地文件系统,可以通过调用factory方法FileSy原创 2014-04-18 08:33:22 · 3955 阅读 · 0 评论 -
如何在百度云平台上执行Hadoop MapReduce程序
发现百度云平台,可以在线执行hadoop MapReduce程序,很欣喜,摸索了一下,可以使用。大概想这才叫做云计算啊,我把计算任务给你,你把计算结果还给我。首先要有百度账号。从平台入口进入:http://openresearch.baidu.com/activity/platform.jspx。会看到如下的界面,其实就是把linux系统的控制台搬到了浏览器上。可用的命令这原创 2014-04-15 10:02:38 · 4377 阅读 · 0 评论