Hadoop
WayBling
SJTU 电子系研究生 研究方向图像处理,机器视觉,人工智能
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop入门(2)——集群配置
准备众所周知Hadoop是分布式存储和计算框架,单机配置的Hadoop不叫Hadoop,集群配置的Hadoop才是真正的Hadoop。所谓集群就是不能少于三台主机,在正式配置之前首先应该明确我想要配置多大的集群,每个主机用来做什么。一般来说最开始都是使用一台master,三台slave的集群,master作为NameNode和ResourceManager,slaves作为DataNode和Node原创 2017-04-13 21:48:14 · 711 阅读 · 0 评论 -
HDFS Quota浅析
简介HDFS支持Quota功能,我无意深入研究,简单总结:Hadoop提供两种配额(quota)模式,name quota和space quota。name quota限制路径的文件(含文件夹)数目,space quota限制的”磁盘”占用空间。可以通过此功能实现团队的存储使用管理。使用方法设置set HDFS name quotas:$ hadoop dfsadmin -...原创 2018-05-19 11:52:34 · 5701 阅读 · 2 评论 -
Python与HiveServer2连接
1.开启metastore和hiveserver2服务$hive --service metastore &$hive --service hiveserver2 &2.beeline调试,远程连接到HiveServer2$cd {HIVE_HOME}/bin$./beeline -u connect jdbc:hive2://localhost:10...转载 2018-05-02 14:07:15 · 3556 阅读 · 0 评论 -
Hadoop入门(3)——HA和Federation
除了官方文档之外强烈推荐http://www.cnblogs.com/tgzhu/p/5790565.html这位的博客。关系型数据库的类比HA和Federation都是HDFS发展过程的必然产物,对应于关系型数据库就是数据库的高可用和拆分。关系型数据库的高可用要解决的几个点就是: 1,单点故障问题——库分主备 一主一备,一主多备,互为主备多种解决方案 2,库分主备——主备一致性问题——主备同原创 2017-08-22 18:09:20 · 591 阅读 · 0 评论 -
Spark on Yarn配置Trouble shooting
Spark on Yarn配置和问题解决软件版本: Nmae Version hadoop 2.7.3 Scala 2.13.0 Spark 2.1.0非常遗憾的发现,尽管是官方文档也可能不靠谱,费了好大劲,终于把Spark on Yarn配置成功了。遇到的主要的坑是,修改yarn-site.xml配置导致NodeManager没有正常启动,以及Spark-submi原创 2017-07-18 17:15:07 · 1006 阅读 · 0 评论 -
Hadoop入门(1)——单机配置
流程1,安装JDK 2,设置SSH无密码登录 3,Hadoop的下载安装和环境变量配置 4,Hadoop配置文件的设置 5,启动Hadoop 6,浏览Hadoop Web页面PS:所有操作在Linux-Ubuntu 14.04 64bit系统云服务器下完成安装JDK1,下载JDK的压缩包,复制到要放置的位置 可以在windows电脑上下载好然后使用WinSCP从Wndows计算机上传到服务原创 2017-04-13 14:35:41 · 971 阅读 · 0 评论 -
HDFS-源码分析(2)——客户端和服务端
RPC通信的两端一端是Client——客户端,一端是Server——服务器,Client/Server的区分不在于机器的物理位置,而在于它们在通信中的逻辑地位。发起通信的是Client,接受信息的是Server。在HDFS中,存在着1,客户端-NameNode;2,客户端-DataNode;3,DataNode-NameNode;4,DataNode-DataNode 四种C/S结构通信,这里的客户原创 2017-07-20 21:31:58 · 1015 阅读 · 0 评论 -
HDFS-源码分析(1)-序列化基础
HDFS-源码分析-RPC通信基础:序列化为了满足通信需求,需要对通信对象进行序列化。Hadoop使用了一套自己的序列化体系。org.apache.hadoop.io包中定义了很多可序列化对象。(顺便提及,io包中还包含压缩compress,纠删码erasurecoding,方法重试retry等功能模块)所有的可序列化对象均实现Writable接口:Writable接口原创 2017-07-20 21:30:01 · 516 阅读 · 0 评论 -
Hadoop Yarn Linux Container Executor配置
Yarn Linux Container Executor配置概述:Yarn支持两种容器实现方式,一种是yarn容器,一种是Linux容器,Linux容器较比Yarn容器具有更好的扩展性和隔离性。本文将讲述Linux容器的配置。需要配置的文件有三:$HADOOP_HOME/etc/hadoop/yarn-site.xml $HADOOP_HOME/etc/hadoop/container-ex原创 2017-07-04 11:31:09 · 6810 阅读 · 1 评论 -
Hadoop操作拾遗
Hadoop的JVM参数设置作为一个Java框架,Hadoop也可以设置其JVM的参数,主要参数如堆内存设置,垃圾回收设置等。 常见的有:(只放我设过的,逐渐增加)-Xms:初始堆大小-Xmx:最大堆大小-XX:NewSize=n:设置年轻代大小-XX:NewRatio=n:设置年轻代和年老代的比值-XX:SurvivorRatio=n:年轻代中Eden区与两个Survivor区的比值。注原创 2017-06-23 20:26:31 · 596 阅读 · 0 评论 -
Yarn下Mapreduce的内存参数理解
简述Container就是一个yarn的java进程,在Mapreduce中的AM,MapTask,ReduceTask都作为Container在Yarn的框架上执行,你可以在RM的网页上看到Container的状态。Yarn的ResourceManger(简称RM)通过逻辑上的队列分配内存,CPU等资源给application。资源的分配数量由配置项和计算请求决定的。这里学习一下部分参数...转载 2018-06-17 15:06:02 · 1213 阅读 · 0 评论
分享