
mapreduce
evo_steven
这个作者很懒,什么都没留下…
展开
-
hadoop mapreduce wordcount测试用例
今天第一次完整的测试了一个mr用例,总结一下,也便于以后自己学习;1.首先要对web工程打包:1.1右键点击export,选择JAR file,然后点击next1.2 选择jar 的目标地址,然后点击next1.3 直接next就好了1.4 要选一下主类,也就是mr的main方法打包成功就要上传到集群了1.然后运行 /dat原创 2012-08-20 17:52:21 · 1680 阅读 · 0 评论 -
mapreduce排序和二次排序以及全排序
自己学习排序和二次排序的知识整理如下。1.Hadoop的序列化格式介绍:Writable2.Hadoop的key排序逻辑3.全排序4.如何自定义自己的Writable类型5.如何实现二次排序1.Hadoop的序列化格式介绍:Writable要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和类,这些是HADOOP自己的序列原创 2013-12-05 12:02:04 · 17314 阅读 · 1 评论 -
传递参数到mapreduce中
今天写MapReduce程序遇到一些问题,就是需要生成一个参数并将这个参数的值传递给MapReduce函数,但是不知道如何实现,于是找到了一些参考网站成功实现了,关键点就在于Configuration参数设置于获取以及我的实现是基于新的MapReduce的api实现的。Configuration conf = ServerConfig.getConfiguration();原创 2013-12-09 12:29:47 · 7194 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
文章出处:http://www.alidata.org/archives/14701 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性转载 2013-12-09 13:22:27 · 779 阅读 · 0 评论 -
hive job配置和mapreduce数目控制
开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的。读取表的时候可以不指定分区。设置如下参数配置动态分区的使用环境:原创 2013-11-26 11:19:08 · 7659 阅读 · 0 评论 -
Hbase counter
本文是本人在做项目中有一个需求,就是日志分析各字段,我是定时去分析日志,需要记录每个域名+时间戳的hits和bits,但是有一个问题处理起来比较头疼,那就是有的日志会有延迟,比如12点去跑11点的日志,但是发现11点的日志中有10点的日志,所以每次都是先去取出来 ,若存在,则累加,再放入,这效率太低了,之后发现counter正好可以完成该使用场景,即:read+count+write,正好完成,就原创 2013-11-08 13:51:54 · 5086 阅读 · 1 评论 -
mapreduce实现对key的排序
最近在学习MapReduce编程遇到很多用MR实现按某一列值排序,或二次排序的类似问题,于是试着用MR实现各种排序问题,最终有点小总结:无需在key对象之外写任何排序函数,MR会完成按key值排序,具体详解如下: 在这之前要先说一下WritableComparable接口。Writable接口大家可能都知道,它是一个实现了序列化协议的序列化对象。在Hadoop中定义一个结构化对象都要实现Wr原创 2013-11-08 14:38:48 · 5374 阅读 · 0 评论 -
mapreduce如何调用第三方jar包
MapReduce程式调用第三方包:我在使用过程中需要用到hbase的jar包,若要使用,常规是添加到每台机器的classpath中,但是通过DistributeCache,在初始化前加入就ok了。解决方法介绍:我们知道,在Hadoop中有一个叫做DistributedCache的东东,它是用来分发应用特定的只读文件和一个jar包的,以供Map-Reduce框架在启动任务和运行的时候使原创 2013-11-08 13:13:18 · 6950 阅读 · 1 评论 -
mapreduce实现多文件自定义输出
本人在项目中遇到一个问题,就是在处理日志的时候,需要有多个key,比如一行日志是 domain sip minf h b而我处理的时候需要map输出为 key:domain+minf value h+"|"+b 和key:sip+minf value h+"|"+b,而且还要做逻辑运算,比如相同的key的value要做累加,普通的mr通常情况下,计算结果会以part-000*输出成多个原创 2013-11-08 14:30:12 · 7431 阅读 · 0 评论 -
Hbase shell 常用命令(1)
hbase转载 2013-09-11 19:49:33 · 759 阅读 · 1 评论 -
基于HIVE文件格式的map reduce代码编写
我们的数据绝大多数都是在HIVE上,对HIVE的SEQUENCEFILE和RCFILE的存储格式都有利用,为了满足HIVE的数据开放,hive client的方式就比较单一,直接访问HIVE生成的HDFS数据也是一种必要途径,所以本文整理测试了如何编写基于TEXTFILE、SEQUENCEFILE、RCFILE的数据的map reduce的代码。以wordcount的逻辑展示3种MR的代码。转载 2013-12-23 16:08:11 · 909 阅读 · 0 评论