
Hadoop分布式系统
Michael_Shentu
感兴趣方向:分布式计算与存储,广告计算学,分布式数据挖掘与机器学习,Hadoop,Spark,HBase
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Yarn平台下出现java.lang.ArithmeticException:/ by zero 该异常的调试经验
最近在公司的Yarn平台下跑多个Mapreduce application的时候,出现了下面的异常:java.lang.ArithmeticException:/ by zero atorg.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:3原创 2013-11-18 11:49:35 · 3808 阅读 · 1 评论 -
spark on yarn 的运行模式
Spark on Yarn的两种运行模式实战:此时不需要启动Spark集群,只需要启动Yarn即可,Yarn的ResourceManager就相对于Spark Standalone模式下的Master!(我们启动spark集群是要用到standalone,现在有yarn了,就不用spark集群了) 1、Spark on Yarn的两种运行模式:唯一的决定因素是当前Applicati原创 2017-01-20 13:35:57 · 4601 阅读 · 0 评论 -
线上hadoop集群namenode迁移
昨天下午接到的一个需求,需要对线上的hadoop集群做一个改动,切换最重要的namenode节点, 将namenode服务转移到另一台服务器上,由于namenode节点下保存了所有的hbase元数据信息等等,万一操作不当, 导致大量数据丢失,责任可不小。这里整理下上午切换过程中的一些操作和碰见的问题。原创 2017-02-28 14:41:24 · 1042 阅读 · 3 评论 -
2014年大数据会议感想
时隔一年,再一次去参加了北京的2014年大数据会议,相比2013年,在2014年中国的大数据领域 都有了许多进步,Hadoop平台愈发强劲,spark平台趋于主流,各种存储模型百花齐放,深度学习成为了数据领域最灿烂的花朵,个性化推荐,广告计算,分布式数据仓库...... 等等,恨不得自己在那两三天的短短时间里,参加完各种技术分享会。。。从2013年到2014年, 自己也开始面临着技术方向转变的原创 2017-02-28 14:41:40 · 758 阅读 · 0 评论 -
hadoop-2.2.* hdfs-site.xml 配置说明
dfs.cluster.administrators hdfs dfs.block.access.token.enable true dfs.datanode.failed.volumes.tolerated 0 dfs.repl原创 2015-01-20 17:27:01 · 6400 阅读 · 0 评论 -
Hadoop-2.2.* 平台 mapred-site文件配置说明
mapreduce.task.timeout 600000 mapreduce.cluster.local.dir /hadoop/mapred( map 输出数据)的位置,dfs.data.dir 决定存储 HDFS 数据的位置。 --> mapreduce.reduce.input.原创 2015-01-20 17:25:16 · 1943 阅读 · 0 评论 -
OutPutFormat介绍 (一)
OutputFormt接口决定了在哪里以及怎样持久化作业结果。Hadoop为不同类型的格式提供了一系列的类和接口,实现自定义操作只要继承其中的某个类或接口即可。你可能已经熟悉了默认的OutputFormat,也就是TextOutputFormat,它是一种以行分隔,包含制表符界定的键值对的文本文件格式。尽管如此,对多数类型的数据而言,如再常见不过的数字,文本序列化会浪费一些空间,由此带来的结果是运原创 2015-02-02 17:11:12 · 2614 阅读 · 0 评论 -
DBInputformat 理解
Mapreduce 从传统数据库 oracle mysql 等等读取数据到hdfs hive 等分布式存储系统在业务中是很常见,除了自己写自定义的inputformat格式,hadoop为我们提供了 DBInputFormat类,这个类原理很简单,getInputSplits函数为我们提供了如何来切分oracle或者mysql中的源数据, 分散到N个 MapTask当中去publi原创 2015-01-27 22:05:01 · 1220 阅读 · 0 评论 -
Hadoop2.2版本编译运行
编译环境: centos5.10 64Bit, jdk 1.6.0_45 maven 3.1.1原创 2014-10-28 16:45:00 · 801 阅读 · 0 评论 -
YarnConfiguration 源码
YarnConfiguration的源码,包含了各种Yarn下 application的配置package org.apache.hadoop.yarn.conf;import java.net.InetAddress;import java.net.InetSocketAddress;import java.net.UnknownHostException;原创 2014-03-25 23:06:40 · 1920 阅读 · 0 评论 -
Yarn中的DEFAULT_IPC_RPC_IMPL(default rpc 实现类)
package org.apache.hadoop.yarn.ipc;import java.net.InetSocketAddress;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import org.apache.hadoop.classif原创 2014-03-25 23:04:47 · 793 阅读 · 0 评论 -
ResourceManager服务的AsyncDispatcher源码分析
根据事件类型将事件分发到相应的已注册的事件处理器上进行处理。实现类AsyncDispatcher,主要包含:private final BlockingQueue eventQueue;存放事件的阻塞队列。 private ThreadeventHandlingThread;处理事件的线程,不断地从eventQueue中取出事件并分发到相应Event原创 2014-03-27 22:49:22 · 1481 阅读 · 1 评论 -
Yarn中的ResourceManager分析
ResourceManager (RM) 是管理集群所有可用资源的中心节点,并能够帮助管理YARN上的分部署applications。他和每个节点上的 NodeManagers (NMs) 和 ApplicationMasters (AMs) 一起工作。NodeManagers 从ResourceManager获取指示,管理单节点上的可用资源。ApplicationMasters 负责同原创 2014-03-27 23:45:01 · 4056 阅读 · 0 评论 -
Hadoop之SequenceFile 详解
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。目前,也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案,他们的基本思路就是将小文件进行合并成一个大文件,同时对这些小文件的位置信息构建索引。不过,这类解决方案还涉及到Hadoop的另一种文件格式——MapFile文件。SequenceFile文件并不保证原创 2014-02-17 22:38:00 · 2334 阅读 · 0 评论 -
java动态代理的内部实现
hadoop中的RPC是个很重要的机制,datanode与namenode之间的通信通过RPC方式在实现,其中java的动态代理与反射等相关机制在里面扮演了重要的角色。下午花了点时间,弄了个简单的代理实例,按照个人的理解来粗讲下的proxy的内部实现。 一.相关类及其方法:java.lang.reflect.Proxy: Proxy 提供用于创建动态代理类和实例的静态方法.new原创 2014-01-27 17:54:41 · 944 阅读 · 0 评论 -
Hadoop中maptask数量的决定因素
刚开始接触hadoop平台的时候 部分初学者对于mapreduce中的maptask的数量是怎么确定的 可能有点迷惑,如果看了jobclient里面的maptask初始化的那段源码,那么就比较清楚了,MapTask的数量是由InputFormat来指定的,InputFormat生成多少个InputSpilt就会有多少个task。因此,如果剩余Map slot的数量大于InputSpil原创 2014-01-16 15:04:03 · 3593 阅读 · 0 评论 -
hadoop 大数据技术会议见闻
分享下这次在北京参加本月12月5, 6日举行的中国大数据技术会议的一些见闻和感触。大数据技术大会前身是2008年开始 每年举办一次的hadoop技术会议。这几年随着hadoop平台在中国互联网等行业应用的越来越广泛,以及这两年大数据这个名词越来越热,各行业都掀起了大数据概念潮流,于是hadoop技术大会也随之改名为大数据技术大会,旨在为广大开发者提供一次大数据行业的讨论交流学习的机会,而不仅仅只局原创 2013-12-25 17:00:45 · 927 阅读 · 0 评论 -
关于yarn平台下mapreduce运行出现的虚拟内存溢出问题
最近在测试一个统计类型的mapreduce 应用的job新功能时候,reducetask在运行中直接抛出了下面的异常:Container [pid=23708,containerID=container_1369623433359_0404_01_000151] is running beyond physical memory limits. Current usage: 192Mb o原创 2014-01-02 22:01:41 · 6155 阅读 · 1 评论 -
如何解决gcc版本冲突
今天碰到一个比较坑爹的问题,在centos上用yum安装编译环境,运行:yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel结果导致编译cocos2d-x出现错误:cc1plus: error: unrecognized command line option "-std=c++1转载 2017-07-06 16:23:17 · 2667 阅读 · 0 评论