
MR
IT菜籽U
当你发现自己的才华撑不起野心时,就请安静下来学习吧
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce任务运行到running job卡住
一:如下异常:Starting Job16/06/30 01:15:34 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.10.50:803216/06/30 01:15:35 INFO input.FileInputFormat: Total input paths to process :原创 2016-06-29 17:22:57 · 10636 阅读 · 1 评论 -
Hadoop笔记十NameNode启动异常
增加一个slave后namenode无法启动,异常如图:原因如下:集群运行时,加入新机器,这时对hdfs-site.xml中的namenode进行了namenode -format操作,导致问题(clusterid expected 和seen 不符,txid expected 和seen 不符)。加入新机器时要额外小心配置。布置一个新集群时如果拷贝这个集群的配原创 2015-09-11 19:21:09 · 3553 阅读 · 1 评论 -
hive数据倾斜的解决方案
分布式文件系统HDFS可以存储海量的数据(以T为单位的数据量),分布式计算框架MapReduce可以对存储在HDFS的数据进行处理后再将结果写回到HDFS。MapReduce + HDFS可以完成对海量数据的批量处理,但是这套组合会导致很多重复性的工作,有些处理起来比较繁琐,例如从文件中选取特定行数的数据,按照某些字段对数据进行排序,统计某些字段出现的字数,将多个数据源的数据join在一起。Hiv转载 2015-10-31 22:01:34 · 2173 阅读 · 0 评论 -
ResourceManager相关配置参数
注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1. ResourceManager相关配置参数(1) yarn.resourcemanager.address参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默认值:${yar转载 2016-02-01 10:45:06 · 10639 阅读 · 1 评论 -
org.apache.hadoop.hdfs.server.datanode.DataNode: Invalid dfs.datanode.data.dir /chunk : java.io.Fil
异常报错:org.apache.hadoop.hdfs.server.datanode.DataNode: Invalid dfs.datanode.data.dir /chunk :java.io.FileNotFoundException: File file:/chunk does not exist启动:sbin/解决方案:vi /e3base/hadoo原创 2016-01-26 20:42:41 · 1947 阅读 · 0 评论 -
datanode 出来了,master:18088也可以啦 但是pi 运行不出来
datanode 出来了,master:18088也可以啦 但是pi 运行不出来 原因:防火墙未关闭原创 2015-12-02 13:29:01 · 1409 阅读 · 0 评论 -
Hadoop单机数据迁移
1.停止hadoop运行运行stop-all.sh2.配置namenode节点和datanode节点的数据存储目录修改hdfs-site.xml配置文件,添加如下内容 dfs.name.dir /home/test/hadoop-test/dfs/name dfs.data.dir /home/test/hadoop-test/dfs/data原创 2015-10-14 16:31:01 · 646 阅读 · 0 评论 -
Hadoop 服务器集群搭建
实验真是场景下搭建集群,最终效果,通过远程或在某局域网中在笔记本中输入某台服务器的IP能够进入服务器中对其操作维护.所需设备:若干服务器硬件,至少一台KVM(远程设备管理器),若干台交换机,至少一台笔记本另外若干台显示屏作为辅助.实验步骤: 准备工作,一台显示屏配备多态服务器硬件(10台左右),有一台交换机连接服务器和KVM实验步骤: 第一:分别在IB原创 2015-09-19 20:35:42 · 1993 阅读 · 0 评论 -
Hadoop 笔记之shuffle详解过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2015-09-21 22:21:50 · 586 阅读 · 0 评论 -
hadoop 笔记之naomenode 中metadata物理结构
原创 2015-09-21 21:34:54 · 1170 阅读 · 0 评论 -
Hadoop 笔记之实例化异常&&无法加载类异常
一. 异常类型 实例化异常. 具体代码: MultipleInputs.addInputPath(job,new Path(args[0]),FileInputFormat .class, WholeFileMapper.class); Mul原创 2015-09-21 12:20:03 · 799 阅读 · 0 评论 -
hadoop中NameNode、DataNode、Secondary、NameNode、JobTracker TaskTracker介绍
1.job的本质是什么?2.任务的本质是什么?3.文件系统的Namespace由谁来管理,Namespace的作用是什么?4.Namespace 镜像文件(Namespace image)和操作日志文件(edit log)文件的作用是什么?5.Namenode记录着每个文件中各个块所在的数据节点的位置信息,但是他并不持久化存储这些信息,为什么?6.客户端读写某个数据时,是否通过转载 2015-09-21 21:01:01 · 1121 阅读 · 0 评论 -
Hadoop 笔记之Map&&reduce端Jion算法剖析
一 Map端JionMap端join实现: 条件 a. job 1 b. map 1 c. reduce 0 原理: 目的是为了使Map在执行setup函数时,加载初始化该路径下数据将cacheFilePath放在Map的本地缓存区,此缓存 区的数据可以被所有Map共享原创 2015-09-21 19:06:54 · 861 阅读 · 0 评论 -
Hadoop 笔记之Map && Reduce数量确定
阅读本文可以带着下面问题:1.map和reduce的数量过多会导致什么情况?2.Reduce可以通过什么设置来增加任务个数?3.一个task的map数量由谁来决定?4.一个task的reduce数量由谁来决定?一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的goalSize = tot转载 2015-09-21 10:31:24 · 1001 阅读 · 0 评论 -
实现TOP K(选做):统计sogou500w中,发关键字次数最多的 *前20名用户UID和发关键字次数。
package day0917;import java.io.IOException;import java.util.TreeMap;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;原创 2015-09-18 19:27:20 · 1760 阅读 · 0 评论 -
Hadoop笔记五之--clusterID INcompatible(不相容)
一 问题的产生:当slave中没有DataNode进程原因如下1.可能是master中没有开启hadoop集群 sbin/start-all.sh2 若启动集群后slave仍未有DataNode则在slave中单步启动命令如下; sbin/hadoop-daemons.sh start datanode3 若还是没有DataNode进程,则查看DataNode原创 2015-09-09 13:03:37 · 2538 阅读 · 0 评论 -
Hadoop笔记之map &&shuffle && reduce 工作流程图及其分析
与其说shuffle为mapreduce之间的独立处理函数 不如说是map中数据输入reduce一通道,因为shuffle一部分属于对map task 另一部分为reduce taskMap函数产生输出时,为了保证I/O效率,采用了先写到内存的环形缓冲区,并做一次预排序,每个Map任务都有一个环形内存缓冲区,(默认大小100MB),一旦缓冲区内数据达到80%(默认原创 2015-09-16 14:51:47 · 887 阅读 · 0 评论 -
Hadoop2.0(HDFS2)以及YARN设计的亮点
YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResouceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向ResourceManger申请资源,并要求Node转载 2015-10-20 21:33:20 · 1139 阅读 · 0 评论 -
Junit单元测试&&两台虚拟机不能相互ping通&&出现master:50070端口无法打开
一两台虚拟机不能相互ping通1.首先保证IP正确无误2.检查防火墙是关闭状态3 检查两台虚拟机是否在同一网段4 若1-3条件都成立,仍不能ping通 则更新两台虚拟机IP,重新配置相关文件二 出现master:50070端口无法打开 格式化namenode文件 hdfs namenode -format 打开:sbin/star-all.sh原创 2015-09-09 08:42:55 · 944 阅读 · 0 评论 -
[root@master java]# hadoop namenode -format DEPRECATED: Use of this script to execute hdfs command i
安装Hadoop过程中查看输入的命令行结果经常遇到 not found common (没有发现命令)分析解决办法:1.查看输入的命令是否正确2.对比命令与所操作的目录是否一致(当前目录是否有此操作命令)3.查看该命令所操作的目录或文件内容是否有错误特别是针对配置文件 如:hdfs namenode -format(格式化文件命令) .bash原创 2015-09-08 18:10:50 · 1127 阅读 · 0 评论 -
hadoop 词频统计&&adoop jar jar包名.jar 包名.主类名 输入路径(文件的目录,不包括文件本身) 输出路径
生成jar包完整操作过程 //www.aboutyun.com/thread-7086-1-1.htmlHadoop fs -put README.txt /0909 上传到HdfsHadoop fs -cat README.txt //查看文件内容Hadoop jar share/hadoopMapReduce/hadoop-mapreduce-examples-2.5.2.jar原创 2015-09-09 21:28:11 · 2069 阅读 · 0 评论 -
Could not find output/file.out in any of the configured local directories
转载:http://blog.pureisle.net/archives/1785.html十二、如果遇到如下错误:FAILED java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI:***就是URI里边出现了不允许出现的字符,比如转载 2016-10-19 09:51:04 · 1112 阅读 · 0 评论 -
下一代hadoop(Mapreduce),YARN/MRv2
随着Hadoop的流行,其局限性也在一定程度体现,各大公司也在hadoop上做了很多修改,下面是雅虎对Hadoop下一代的重构计划。 回顾 海量数据业务中,使用数量少规模大的集群比使用数量多规模小集群的成本低。规模大的集群能处理大数据集,同时也能支持更多的任务和用户。 Apache Hadoop MapReduce框架大约能够支持4000台机器。下一代的Apache Hadoop转载 2015-09-01 21:16:05 · 573 阅读 · 0 评论 -
Hadoop 工作原理
第一部分:目前Hadoop1.0架构的问题 单点故障•如果NameNode或者JobTraker关掉,那么整个集群瘫痪。 •对于7×24生产环境,是具有极大的风险。 第二部分:常见的HA方案 •第一种是可以设置一个NFS的目录,存储fsimage和editlog,存储的是实时数据,这样当n转载 2015-09-08 18:20:41 · 854 阅读 · 0 评论 -
Hadoop 学习笔记
本文参考 http://blog.youkuaiyun.com/blacklaw0/article/details/9884481研究hadoop的文章有很多,我想自己写一下,主要是理解学习hadoop,方便自己进行优化管理主要参考是hadoop官方:http://hadoop.apache.org/docs/current/慢慢来吧,先copy一张hadoop官方的hdfs架构图hdfs转载 2015-08-31 16:49:23 · 534 阅读 · 0 评论 -
MapReduce源码分析之InputSplit分析
MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。什么是InputSplit InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。Job提交时如转载 2016-08-26 11:31:58 · 715 阅读 · 0 评论 -
mapreduce中的压缩
转载请注明出处:http://blog.youkuaiyun.com/lastsweetop/article/details/9187721作为输入当压缩文件做为mapreduce的输入时,mapreduce将自动通过扩展名找到相应的codec对其解压。作为输出当mapreduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapped.out转载 2016-09-14 17:05:39 · 503 阅读 · 0 评论 -
TaggedInputSplit cannot be cast to org.apache.hadoop.mapreduce.lib.input.FileSplit
异常:java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit cannot be cast to org.apache.hadoop.mapreduce.lib.input.FileSplit at org.apache.hado原创 2016-08-25 17:06:29 · 3238 阅读 · 0 评论 -
MapReduce中自定义文件输出名
MR的输出结果默认为part-r-00000,我们可自定义易识别的名字替代part,如score-r-00000[java] view plain copy job.setOutputFormatClass(MyOut.class); MyOut.setOutputName(job, "score");//自定义输出名转载 2016-09-14 17:04:05 · 4815 阅读 · 1 评论 -
Hadoop 笔记之创建自定义分区---手机流量统计
/********************************************====== 源数据 =====***************************************/数据与数据之间是用Tab分割18513506063 600 100 23018513506034 500 200 130185135060原创 2015-09-17 11:56:46 · 641 阅读 · 0 评论 -
Hadoop 简单实现文本全排序
http://www.360doc.com/content/12/0406/23/23378_201553118.shtml转载 2015-09-16 14:45:48 · 561 阅读 · 0 评论 -
hadoop的mapreduce作业中经常出现Java heap space解决方案
我们经常遇到这样的问题,内存溢出,内存溢出的原因是很简单,不够用了,不够用该怎么设置,通过水设置。可以参考下面案例一、hadoop的mapreduce作业中经常出现Java heap space解决方案常常被一些用户问到,说“为什么我的mapreduce作业总是运行到某个阶段就报出如下错误,然后失败呢?以前同一个作业没出现过的呀?”10/01/10 12:48:01 INF转载 2016-08-10 16:30:20 · 11600 阅读 · 0 评论 -
MR多表关联代码
JoinMain:package com.cys.tables;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import or原创 2016-08-03 15:07:39 · 1521 阅读 · 0 评论 -
Permission denied: user=administrator, access=WRITE, inode="/":root:supergroup:drwxr-xr-x
搭建了一个Hadoop的环境,Hadoop集群环境部署在几个Linux服务器上,现在想使用windows上的Java客户端来操作集群中的HDFS文件,但是在客户端运行时出现了如下的认证错误,被折磨了几天,问题终得以解决。以此文记录问题的解决过程。(如果想看最终解决问题的方法拉到最后,如果想看我的问题解决思路请从上向下看)问题描述上传文件的代码:package com.cys.map原创 2016-07-29 11:02:27 · 23960 阅读 · 16 评论 -
通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据
下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境:宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.10.503台虚拟机操作系统为CentOS 位三台虚拟机已成功安装Hadoop,并实现免密钥互访,配hosts为:192.原创 2016-06-29 19:13:34 · 733 阅读 · 0 评论 -
JVM的内存划分
http://www.cnblogs.com/dolphin0520/p/3613043.html转载 2015-08-20 15:10:34 · 456 阅读 · 0 评论 -
Error: java.lang.NumberFormatException: For input string: ""
Error: java.lang.NumberFormatException: For input string: "" at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65) at java.lang.Integer.parseInt(Integer.java:504) at java.lang.Integer.parseInt(Integer.java:527) at原创 2016-05-18 23:53:22 · 19386 阅读 · 0 评论 -
mapreduce实现排序并且找出销量最多的数据
Mapperpackage Demo1;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;public class Mymap原创 2016-05-15 14:35:52 · 2009 阅读 · 0 评论 -
Hadoop Linux下txt文件乱码
一问题产生 在linux操作系统下,我们有时打开在windows下的txt文件,发现在windows下能正常显示的txt文件出现了中文乱码。 二分析问题 出现这种情况的原因为两种操作系统的中文压缩方式不同,在windows环境中中文压缩一般为gbk,而在linux环境中为utf8,这就导致了在windows下能正常显示而在linux环境下打开呈现了乱码状态。原创 2015-09-27 14:57:55 · 2522 阅读 · 0 评论 -
Hadoop集群MapReduce经典案例
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1: 2012-3转载 2015-09-17 08:29:40 · 1950 阅读 · 0 评论