
MapReduce
XiaoGuang-Xu
主要从事Hadoop Spark Flink,兴趣爱好:数据挖掘和机器学方向
展开
-
Hadoop错误总结
P1: vWARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 问题:源代码编译问题,可能是32为,你的机器是64位,需要重新编译 p2: 2015-01-转载 2018-02-02 16:29:46 · 2099 阅读 · 0 评论 -
reduce个数到底和哪些因素有关
reduce个数到底和哪些因素有关原文 http://blog.youkuaiyun.com/zgc625238677/article/details/30226505reduce的数目到底和哪些因素有关 1、我们知道map的数量和文件数、文件大小、块大小、以及split大小有关,而reduce的数量跟哪些因素有关呢? 设置mapred.tasktracker.re转载 2016-02-17 11:05:14 · 684 阅读 · 0 评论 -
MapReduce的一点理解
MapReduce的一点理解http://www.cnblogs.com/ywl925/p/3981360.htmlMapReduce的一点理解对于MapReduce编程,大概率的流程用过的人或多或少都清楚,但是归结到细节上,就有的地方不清楚了,下面根据自己的疑问,加上从网上各处,找到的被人的描述,最自己的疑问做出回答。1. MapReduc转载 2015-07-10 16:49:47 · 1119 阅读 · 0 评论 -
学习笔记01--在MR中优化用户的代码
在MR中优化用户的代码1:尽量减少正则表达式的使用2:String标记:测试标明:StringUtils.split 性能优于 StringTokenizer 优于 String.split 优于 Scanner类3: Map函数中的对象重用:对象的实例化,尽量不要放在Map函数内,放在函数体之外 Text outputValue = new Text();原创 2015-07-08 10:04:28 · 575 阅读 · 0 评论 -
hadoop实例---多表关联
hadoop实例---多表关联多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。如下输入的是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出工厂名-地址名表样本如下:factory:factoryname addressedBeiji转载 2015-06-09 17:29:05 · 555 阅读 · 0 评论 -
MapReduce实现单表关联
例如给出表child-parent表,要求输出grandchildren-grandparent表给出:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Jesse 输出:Tom AliceTom JesseJone Alice转载 2015-06-09 17:25:41 · 497 阅读 · 0 评论 -
windows7+eclipse+hadoop2.5.2环境配置
windows7+eclipse+hadoop2.5.2环境配置 http://www.cnblogs.com/huligong1234/p/4137133.html一.hadoop集群环境配置 参考我的前一篇文章(ubuntu + hadoop2.5.2分布式环境配置 http://www.cnblogs.com/huligong1234/p/4136331.html)转载 2015-06-19 09:35:44 · 609 阅读 · 0 评论 -
Hadoop学习资料
Hadoop学习资料: yuhttp://blog.youkuaiyun.com/lskyne/article/category/1281504/2转载 2014-05-26 22:03:39 · 588 阅读 · 0 评论 -
hadoop MapReduce - 从作业、任务(task)、管理员角度调优
Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一 应用程序编写规范1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果,从而减少各个Reduce Task的远程拷贝数据量,最终转载 2015-03-15 15:15:43 · 1004 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
MapReduce:详解Shuffle过程* author : 冶秀刚 http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。转载 2016-02-29 18:02:53 · 417 阅读 · 0 评论 -
Hadoop HDFS中的数据块和Map任务的分片
HDFS的数据块磁盘数据块是磁盘进行数据读/写的最小单位,一般是512字节,而HDFS中也有数据块,默认为64MB。所以HDFS上的大文件被分为许多个chunk.而HDFS上的小文件(小于64MB)的文件不会占据整个块的空间。HDFS数据块设置大的原因是减少寻址开销,数据备份也是以块为单位的。用Hadoop fsck / -files -blocks 命令可以检查H转载 2016-05-25 22:11:43 · 2255 阅读 · 0 评论 -
MR中reduce阶段报错_1
MR在Reduce阶段中拉取数据失败??Why?原创 2017-11-03 16:09:56 · 463 阅读 · 0 评论 -
MR中Shuffle过程中sort总结
原文: http://blog.youkuaiyun.com/u013080251/article/details/60146294写在前面的话: 新学期开学想重新复习一下Hadoop的知识,不断更新自己的知识库,在今天晚上阅读的过程中发现,有人已经总结了Mapreduce在shuffle过程中sort的实施。我以前从来都没有深入探究过sort过程应用的算法,以及sort的次数。今天我将其总结一下转载 2017-10-18 14:02:56 · 1401 阅读 · 0 评论 -
mapreduce出现类似死锁情况
MR-------------Error------------------Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster. Container killed on request. Exit code is 143 Container e转载 2017-08-11 09:55:54 · 3040 阅读 · 0 评论 -
Reduce运行到99.99%到100%,最后出现了错误,导致任务失败
Error: java.io.IOException: Failing write. Tried pipeline recovery 5 times without success. at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DFSOutputStream.java:1113) a原创 2017-08-04 07:56:51 · 4593 阅读 · 1 评论 -
MapReduce运行任务报错
MapReduce运行任务报错如下:Error: java.io.IOException: Failing write. Tried pipeline recovery 5 times without success. at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DF原创 2017-08-03 10:37:23 · 4810 阅读 · 0 评论 -
MapReduce运行中遇到的问题
1:运行mapreduce任务任务过程中,出现下面现象,为啥? TaskAttempt killed because it ran on unusable nodehadoopserver13:8041 Container released on a *lost* node YARN error: TaskAttempt killed because it ran on unusab原创 2017-05-17 10:26:26 · 2514 阅读 · 0 评论 -
Hive SQL 和 MR 异常之 reduce拉取数据失败
主要错误:2016-12-23 09:43:10,656 INFO [fetcher#6] org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl: assigned 7 of 7 to hadoopserver04:13562 to fetcher#62016-12-23 09:43:10,656 INFO [fetcher转载 2016-12-23 10:17:03 · 1354 阅读 · 0 评论 -
构建大数据生态需要哪些核心技术?
转载URL : http://www.infoq.com/cn/news/2016/04/ecological-construct-of-big-data2016年QCon全球软件开发大会北京站 于4.21-4.23在北京国际会议中心举办,参会者对整体内容设置及安排反馈良好。这里我们梳理出了22号“大数据生态构建”厂商共建专场的重点演讲内容,为没能到现场聆听的小伙伴们奉上饱满的干货内容。转载 2016-05-13 14:19:37 · 1612 阅读 · 0 评论 -
十道海量数据处理面试题
第一部分、十道海量数据处理面试题http://blog.youkuaiyun.com/yclzh0522/article/details/69222191、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射转载 2015-01-23 13:32:04 · 533 阅读 · 0 评论 -
Hadoop、Pig、Hive、Storm、NoSQL 学习资源收集
hadoophbase hive pig mapreduce 目录[-](一)hadoop 相关安装部署(二)hive(三)pig(四)hadoop原理与编码(五)数据仓库与挖掘(六)Oozie工作流(七)HBase(八)flume(九)sqoop(十)ZooKeeper(十一)NOSQL(十二)Hadoop 监控与管理(十三)Storm(十四)YARN转载 2015-02-11 10:27:35 · 1839 阅读 · 0 评论 -
hadoop面试题总结1
1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份c)1 份d)不确定答案A默认3分3. 下列哪个程序通常与 NameNode转载 2015-02-10 13:03:07 · 688 阅读 · 0 评论 -
MapReduce工作原理图文详解
MapReduce工作原理图文详解前言:前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了、学了很多东西,收获颇丰。可是开学后,大家都忙各自的事情,云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧,也希望有更多优秀的文章出炉。汤帅转载 2014-07-06 17:23:51 · 633 阅读 · 0 评论 -
Mapreduce常见数据挖掘算法集收集
Mapreduce常见数据挖掘算法集收集1. Map/Reduce方式实现矩阵相乘http://www.norstad.org/matrix-multiply/index.html2. Map/Reduce方式实现PageRank算法http://blog.ring.idv.tw/comment.ser?i=369http://c转载 2014-06-13 12:48:13 · 688 阅读 · 0 评论 -
hadoop2学习URl
hadoop2学习URlhttp://blog.youkuaiyun.com/wind5shy/article/category/1261200/2解析Hadoop 2.3.0版本的新特性 流式计算框架Storm,内存计算框架Spark2014年2月20日,Hadoop 2.3.0版本发布,这是apache 在2014年发布的第一个Hadoop版本转载 2014-07-03 18:21:30 · 658 阅读 · 0 评论 -
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】转载 2014-07-02 23:07:54 · 1654 阅读 · 0 评论 -
Hive / pig / Sqoop/ Oozie 学习资料
Hadoop Pig学习笔记(一) 各种SQL在PIG中实现博客分类: HadoopPig 本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1317084 欢迎加入Hadoop超级群: 180941958 本人新浪微博:http://weibo.com/guoyunsky转载 2014-07-01 11:38:47 · 654 阅读 · 0 评论 -
hadoop secondarynamenode的作用
1、初学者会见名思义的认为secondarynamenode是namenode的备份其它的,或者认为它们是一样的。实质上,它是namenode的一个快照,会根据configuration中设置的值来决定多少时间周期性的去spap一下namenode,记录namenode中的metadata及其它数据。2、假使namenode损坏或丢失之后,无法启动hadoop这时就要人工去干预恢复到sec转载 2014-05-26 22:07:59 · 659 阅读 · 0 评论 -
Hadoop MapReduce进阶 使用分布式缓存进行replicated join
概念:reduce-side join技术是灵活的,但是有时候它仍然会变得效率极低。由于join直到reduce()阶段才会开始,我们将会在网络中传递shuffle所有数据,而在大多数情况下,我们会在join阶段丢掉大多数传递的数据。因此我们期望能够在map阶段完成整个join操作。主要技术难点:在map阶段完成join的主要困难就是mapper可能需要与一个它自己不能获得的数据进转载 2014-06-28 22:45:22 · 533 阅读 · 0 评论 -
Hadoop Job Scheduler作业调度器
Hadoop Job Scheduler作业调度器Hadoop http://hi.baidu.com/hovlj_1130/blog/item/fb84dd1e3558d8f8e0fe0b8e.htmlHadoop Job SchedulerHadoop的作业调度器,可以以插件的方式加载,常见的作业调度器有三种:默认调度算法FIFO计算能力调度算法转载 2014-07-06 17:37:24 · 749 阅读 · 0 评论 -
Hadoop中的DistributedCache
Hadoop中的DistributedCache1、DistributedCache In Hadoop此篇文章主要是前一篇的后续,主要讲Hadoop的分布式缓存机制的原理与运用。分布式缓存在MapReduce中称之为DistributedCache,它可以方便map task之间或者reduce task之间共享一些信息,同时也可以将第三方包添转载 2014-07-06 17:19:08 · 579 阅读 · 0 评论 -
hadoop面试题总结2
1 使用Hive或者自定义MR实现如下逻辑product_no lac_id moment start_time user_id county_id staytime city_id13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571转载 2015-02-10 13:00:33 · 572 阅读 · 0 评论 -
hadoop2体系结构
http://www.cnblogs.com/meiyuanbao/p/3545929.html 要想理解本节内容,首先需要了解hadoop1的体系结构。在本博客中和我的视频中都有相关内容,这里不再重复,只讲hadoop2的内容。 hadoop1的核心组成是两部分,即HDFS和MapReduce。在hadoop2中变为HDFS和Yarn。 新的HDFS中的Nam转载 2015-02-10 12:56:16 · 684 阅读 · 0 评论 -
用MapReduce实现矩阵乘法
用MapReduce实现矩阵乘法转载请注明出处:http://blog.fens.me/hadoop-mapreduce-matrix/前言MapReduce打开了并行计算的大门,让我们个人开发者有了处理大数据的能力。但想用好MapReduce,把原来单机算法并行化,也不是一件容易事情。很多的时候,我们需要从单机算法能否矩阵化去思考,所以矩阵操作就变成了算法并行化的转载 2015-01-01 11:11:59 · 1529 阅读 · 0 评论 -
Hadoop的Mapreduce运行原理详解
我们通过下面这个天气数据处理的例子来说明Hadoop的运行原理.1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+00430转载 2015-02-06 17:30:14 · 1050 阅读 · 0 评论 -
Hadoop面试题
1. 下面哪个程序负责 HDFS 数据存储。答案C datanodea)NameNodeb)Jobtrackerc)Datanode d)secondaryNameNodee)tasktracker2. HDfS 中的 block 默认保存几份? 答案A默认3分a)3 份b)2 份c)1 份d)不确定3. 下列哪个程序通常与 NameNo转载 2015-01-22 12:59:30 · 855 阅读 · 0 评论 -
Hadoop云盘文件管理系统
基于JFinal+AngularJs+Hadoop的WEB文件管理系统http://blog.youkuaiyun.com/cptcpt123/article/details/20581339http://download.youkuaiyun.com/detail/cptcpt123/7181997基于Hadoop2.2.0版本分布式云盘的设计与实现http://blog.c转载 2015-02-05 14:35:12 · 2092 阅读 · 0 评论 -
hadoop2.2+HA 集群搭建
Hadoop2.3.0+Hbase0.96.1.1+Hive0.14.0+Zookeeper3.4.6+Sqoop1.99.3安装配置流程http://blog.youkuaiyun.com/daytimemoon/article/details/24036369转载 2014-05-26 13:26:30 · 614 阅读 · 0 评论 -
BloomFilter 简介及在 Hadoop reduce side join 中的应用
BloomFilter 简介及在 Hadoop reduce side join 中的应用247人阅读 评论(0) 收藏 举报1、BloomFilter能解决什么问题? 以少量的内存空间判断一个元素是否属于这个集合, 代价是有一定的错误率 2、工作原理 1. 初始化一个数组, 所有位标为0, A={x1, x2, x3,…,xm} (x1,转载 2014-06-29 09:50:38 · 775 阅读 · 0 评论