
__MapReduce
文章平均质量分 94
冥想者-定
缘起性空
展开
-
hadoop fs -text xxxx/part-00005.gz | more
hadoop fs -text xxxx/20161031/23/part-00005.gz | more fs -text 能查看 gz压缩的文件。。 好强大转载 2016-11-01 10:22:32 · 841 阅读 · 0 评论 -
Hadoop测试TeraSort
http://www.opstool.com/article/249使用teragen产生数据使用Teragen来产生数据,示例如下:hadoop jar hadoop-*-examples.jar teragen 参数1 参数2teragen的参数解释:参数1:表示要产生的数据的行数。Teragen每行数据的大小是100B。要产生1T的数据,需要的转载 2015-10-09 16:53:38 · 1571 阅读 · 0 评论 -
Mapreduce不设置reduce,只执行map的输出结果
http://m.blog.youkuaiyun.com/blog/yhc13429826359/9962047Mapreduce不设置reduce,只执行map的输出结果2013-8-14阅读3070 评论5在写MR程序时候,有时我们不需要reduce,比如对原始数据做Format等,这样我们在MR程序中就不需要写reduce函数,同样在main函数配置中也不需要转载 2015-11-06 15:49:02 · 7865 阅读 · 2 评论 -
MapReduce中的两表join几种方案简介
http://blog.youkuaiyun.com/leoleocmm/article/details/8602081MapReduce中的两表join几种方案简介5人收藏此文章, 我要收藏发表于2个月前(2012-12-11 20:11) , 已有91次阅读 ,共0个评论1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP转载 2015-09-18 11:48:11 · 488 阅读 · 0 评论 -
一个计算HBase表中行数的MapReduce程序
public class RowCounter{ static final String NAME="rowcounter";static class RowCounterMapper extends TableMapper{public static enum Counters {ROWS}@overrideion public void map(Immuta转载 2015-10-06 07:41:08 · 578 阅读 · 0 评论 -
Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数
http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-configurations-fair-scheduler/本博客微信公共账号:hadoop123(微信号为:hadoop-123),分享hadoop技术内幕,hadoop最新技术进展,发布hadoop相关职位和求职信息,hadoop技术交流聚会、讲座以及会议等。二维码如下转载 2015-11-05 17:17:22 · 377 阅读 · 0 评论 -
Hadoop 设置任务执行的队列以及优先级
http://blog.youkuaiyun.com/wisgood/article/details/39075883作业提交到的队列:mapreduce.job.queuename作业优先级:mapreduce.job.priorityPig版本:SET mapreduce.job.queuename root.etl.distcp;SET m转载 2015-11-05 17:15:44 · 1544 阅读 · 0 评论 -
第三章 hadoop分布式文件系统
1、hdfs的设计 超大文件流式数据访问商用硬件低时间延迟的数据访问大量的小文件多用户写入, 任务修改文件2 HDFS的概念1、数据块 2 namenode 和datanode 3 联邦hdfs 4 hdfs的高可用性3、 命令行接口4、 hadoop 文件系统5、 通过 File System API 读取数据6、转载 2015-10-03 10:16:35 · 308 阅读 · 0 评论 -
MapReduce操作HBase
http://www.cnblogs.com/liqizhou/archive/2012/05/17/2504279.htmlMapReduce操作HBase运行HBase时常会遇到个错误,我就有这样的经历。 ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 tim转载 2015-11-04 17:08:14 · 456 阅读 · 0 评论 -
应用程序通过对键中的气温进行排序来找出最高气温
public class MaxTemperatureUsingSecondarySort extends Configured implements Tools{ static class MaxTemperatureMapper extends Mapper{ private NcdcRecordParer parser = new NcdcRecordParser()原创 2015-09-30 20:11:56 · 483 阅读 · 0 评论 -
MR中使用sequnceFIle输入文件
http://www.cnblogs.com/chengxin1982/p/3956920.htmlMR中使用sequnceFIle输入文件转换原始数据为块压缩的SequenceFIle 1234567891011121314转载 2015-09-14 18:47:52 · 516 阅读 · 0 评论 -
Map Reduce个数问题
默认的partitioner是HashPartitioner,它对每条记录的键进行哈希操作以决定该记录应该属于那个分区, 每个分区对于一个reduce任务,所以分区数等于作业的reduce数目public class HashPartitioner extends Partitioner{public int getParttion(K key, V value ,int numP转载 2015-09-30 21:22:27 · 373 阅读 · 0 评论 -
hadoop MapReduce 三种连接
http://blog.youkuaiyun.com/haizhaopeng/article/details/44726293为了实现内连接和外连接,MapReduce中有三种连接策略,如下所示。这三种连接策略有的在map阶段,有的在reduce阶段。它们都针对MapReduce的排序-合并(sort-merge)的架构进行了优化。重分区连接(Repartition join)——redu转载 2015-10-18 08:19:04 · 401 阅读 · 0 评论 -
把整个文件作为一条记录处理 WholeFileInputFomrat
有时,Mapper需要访问一个文件中全部的内容, 几十不分割文件, 仍然需要一个RecordReader来读取文件内容作为 record的值,转载 2015-09-29 17:05:23 · 431 阅读 · 0 评论 -
Hadoop框架排序和分组的理解
http://blog.youkuaiyun.com/zuochanxiaoheshang/article/details/8986114MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般,将排序以及Map的输出传输到Reduce的过程称为混洗(shuffle)。每一个Map都包含一个环形的缓存,默认100M,Map首先将输出写到缓存当中转载 2015-09-30 15:03:16 · 358 阅读 · 0 评论 -
小文件与CombineFileInputFormat
1GB的文件分割成16个64M与 100KB的10000个快10000每个文件都需要使用一个map操作,作业时间比一个文件上的16个map操作慢几十甚至几百倍。CombineFileInputFomat可以缓冲这个问题,他是针对小文件而设计的, FileInputFormat为每个文件产生一个分片,而CombineFileInputFormat把多个文件 打包到一个分片中 以便每个转载 2015-09-29 13:45:56 · 754 阅读 · 0 评论 -
Hadoop简单实现全排序
http://blog.youkuaiyun.com/yeruby/article/details/21233661做毕设用到Hadoop的全排序处理大数据,接触Hadoop已经2个月了,进展缓慢,深刻认识到进入到一个好的团队、共同研究是多么的重要,以此纪念我的大四一个人的毕设。废话不多说,我实现了整形和字符串型的全排序。基础知识:1. TeraSo转载 2015-09-30 14:04:20 · 356 阅读 · 0 评论 -
hadoop 全局排序的 源码
/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regard转载 2015-10-09 17:01:31 · 544 阅读 · 0 评论 -
mapreduce实现对key的排序
http://blog.youkuaiyun.com/evo_steven/article/details/14521713最近在学习MapReduce编程遇到很多用MR实现按某一列值排序,或二次排序的类似问题,于是试着用MR实现各种排序问题,最终有点小总结:无需在key对象之外写任何排序函数,MR会完成按key值排序,具体详解如下: 在这之前要先说一下WritableComparabl转载 2015-09-21 17:47:52 · 1788 阅读 · 0 评论 -
hadoop序列化框架
A 默认序列化框架是 Writable接口, 缺点: 缺乏语言的可移植性B 不使用java Serialization, 缺点: 不够精简, 用起来非常纠结, 无法做到 精简,快速, 可扩展, 支持互操作C Apache Thrift 一般用来作为二进制 数据的永久存储格式, Mapreduce格式对该类的支持有限D Google Protocol框架 一般用来做二进制数据原创 2015-09-23 10:26:57 · 677 阅读 · 0 评论 -
hadoop核心逻辑shuffle代码分析-map端
http://blog.youkuaiyun.com/mrtitan/article/details/8711366首先要推荐一下:http://www.alidata.org/archives/1470阿里的大牛在上面的文章中比较详细的介绍了shuffle过程中mapper和reduce的每个过程,强烈推荐先读一下。 不过,上文没有写明一些实现的细节,比如:spill的过程,mapper转载 2016-06-23 14:41:58 · 438 阅读 · 0 评论 -
hadoop核心逻辑shuffle代码分析-reduce端
http://blog.youkuaiyun.com/mrtitan/article/details/8743528接上篇文章,下面是reduce端的过程分析。大概介绍下reduce的实际作用。以mapreduce经常做的groupby为例,map是将输入按group by的key排序,reduce就是做各种类型的聚合,比如sum,max,mean等。因此,可想而知,reduc转载 2016-06-23 14:24:12 · 576 阅读 · 1 评论 -
MapReduce:详解Shuffle过程
http://langyu.iteye.com/blog/992916/** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着转载 2016-06-16 16:39:46 · 473 阅读 · 0 评论 -
Hadoop平台优化综述(二)
http://dongxicheng.org/mapreduce/hadoop-optimization-1/4. 从系统实现角度进行优化4.1 在可移植性和性能之间进行权衡论文[16]主要针对HDFS进行了优化,它分析了HDFS性能低下的两个原因:调度延迟和可移植性假设。(1) 调度延迟Hadoop采用的是动态调度算法,即:当某个ta转载 2016-06-16 15:35:57 · 328 阅读 · 0 评论 -
hadoop 学习笔记:mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架转载 2016-06-15 16:33:49 · 318 阅读 · 0 评论 -
如何高效的阅读hadoop源代码
首先,不得不说,hadoop发展到现在这个阶段,代码已经变得非常庞大臃肿,如果你直接阅读最新版本的源代码,难度比较大,需要足够的耐心和时间,所以,如果你觉得认真一次,认真阅读一次hadoop源代码,一定要有足够的心理准备和时间预期。 其次,需要注意,阅读Hadoop源代码的效率,因人而异,如果你有足够的分布式系统知识储备,看过类似的系统,则能够很快地读它的源代码进行通读,并快速切入你最关注的局部细转载 2016-04-27 09:58:18 · 465 阅读 · 0 评论 -
YARN批处理方式kill Applications解决方案
YARN批处理方式kill Applications解决方案http://www.open-open.com/lib/view/open1451964982120.html前言在使用hadoop集群的时候,所有的任务都是最终以Application的形式跑在集群中,不管你是自己写的MR程序亦或是你写的hive sql转化成的mr任务,最终都是以Appli转载 2016-02-03 18:27:08 · 4489 阅读 · 0 评论 -
mapreduce 多种输入
http://blog.youkuaiyun.com/july_2/article/details/82115771.多路径输入1)FileInputFormat.addInputPath 多次调用加载不同路径FileInputFormat.addInputPath(job, new Path("hdfs://RS5-112:9000/cs/path1"));FileInputFormat转载 2016-02-02 17:25:24 · 334 阅读 · 0 评论 -
mapreduce
public class AppUserProfileChangeChannelJoin { public static class Mapper extends Mapper { private UserProfile up = new UserProfile(); @Override protected void转载 2015-11-24 14:54:30 · 280 阅读 · 0 评论 -
hadoop调度器
http://blog.sina.com.cn/s/blog_8d955f8c0101c7px.html1:默认调度器 :FIFO 这个调度器的特点是先进先出,英文名是first in first out,所有任务提交到一个队列里面,然后由jobtracker按照作业的优先级高低及提交顺序 执行HOD调度器: 此调度器的原理是一个hadoop物理机群中,转载 2015-11-03 10:29:24 · 597 阅读 · 0 评论 -
对Hadoop二次排序的理解
http://blog.youkuaiyun.com/cnweike/article/details/6958347MR默认会对键进行排序,然而有的时候我们也有对值进行排序的需求。满足这种需求一是可以在reduce阶段排序收集过来的values,但是,如果有数量巨大的values可能就会导致内存溢出等问题,这就是二次排序应用的场景——将对值的排序也安排到MR计算过程之中,而不是单独来做。转载 2015-10-15 12:24:30 · 381 阅读 · 0 评论 -
Hadoop二次排序
http://blog.youkuaiyun.com/cnweike/article/details/6954364hadoopmapreduceclassexceptionoutputstringMapReduce框架在把记录到达reducers之前会将记录按照键排序。对于任意一个特殊的键,然而,值是不排序的。甚至是,值在两次执行中的顺序是不一样的,原因是它们是从不同的map中来的,转载 2015-10-15 12:23:54 · 359 阅读 · 0 评论 -
Hadoop教程(三): MR重要运行参数
http://www.importnew.com/4528.html书接上回,继续为大家讲解MapReduce相关Job ConfigurationJobConf是MR任务的配置对象,也是描述MR任务在Mapreduce框架中如何执行的主要途径,框架将如实的以该对象包含的信息来执行MR任务,但要注意以下特殊情况:一些配置参数被管理员在hadoop相关配置文件中(转载 2015-10-28 20:23:58 · 1268 阅读 · 0 评论 -
hadoop二次排序==想通了
推荐看两篇博客:http://blog.youkuaiyun.com/cnweike/article/details/6954364需求:::::要说明这个思想,考虑计算一年中最高气温的MapReduce程序。如果我们将值安排为降序,那么我们就不需要通过迭代来找出最大值——我们仅仅是拿出第一个值来,而忽略掉剩下的。(这个方法可能不是解决这个问题的最有效的方式,但是它说明转载 2015-10-15 12:23:25 · 377 阅读 · 0 评论 -
SequenceFile 读写操作
http://blog.youkuaiyun.com/xiao_jun_0820/article/details/27708371import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoo转载 2015-10-15 11:25:21 · 1060 阅读 · 0 评论 -
Speculative Execution in Hadoop
http://blog.youkuaiyun.com/macyang/article/details/7880671所谓的推测执行,就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时Job Tracker会启动一个新的任务转载 2015-10-28 18:56:37 · 316 阅读 · 0 评论 -
MR避免切分
有些应用程序可能不希望文件被切分, 而是用一个mapper完整处理每一个输入文件,例如检查一个文件中所有记录是否有序,一个简单的方法是顺序扫描每一条记录并且比较后一条记录是否比前一条要小。如果将它实现为一个map任务, 那么只有一个map操作整个文件时, 这个算法才可行。有两种方法可以保证输入文件不给切分,A 最简单但是不怎么漂亮( 增加最小分片大小, 将他设置成大于要处理的最大转载 2015-09-29 17:00:58 · 607 阅读 · 0 评论 -
hadoop全局排序思路
import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.SequenceFile.Co原创 2015-09-30 14:23:05 · 701 阅读 · 0 评论 -
hadoop内置的计数器分组
组别 名称、类别MapReduce任务计数 org.apache.hadoop.mapreduce.TaskCounter文件系统计数器 org.apache.hadoop.mapreduce.FileSystemCounterFileInputFormat org.apache.hadoop.mapreduce.lib.input.FileInputFormatCounterF原创 2015-09-30 10:13:50 · 1202 阅读 · 0 评论 -
Hadoop中自定义计数器
一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、最近写MR的代码,总在想统计一些错误的数据出现的次数,发现如果都写在reduce的输出里太难看了,所以想找办法专门输出一些统计数字。2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器,但都是基于0.19版本写的,好多函数都不对,改动相对较大。3、基于上面2个理由,写个文档转载 2015-06-10 17:50:20 · 410 阅读 · 0 评论