
大数据
我是故意来地球的
这个作者很懒,什么都没留下…
展开
-
hadoop中yarn容错机制
在yarn中,由于是分布式计算框架,一个作业(job)可能运行在不同的的计算节点中,也就是分而治之。那么如果一个job中的某个task由于某种原因,而出现故障,那么,yarn是如何容错的?任务失败最常见的情况就是1、mapTask或者reduceTask中由于代码原因抛出异常,jvm在关闭之前,会通知mrAppMaster这个task任务失败,在mrAppMaster中,就任务标记为失败,并...原创 2020-01-03 14:52:53 · 1070 阅读 · 0 评论 -
spark本地调试内网hdfs
spark读取hdfs文件原理 /**获取具有任意输入格式的Hadoop文件的RDD * * 因为Hadoop的RecordReader类对每条记录重新使用相同的可写对象, * 所以直接缓存返回的RDD或直接将其传递给聚合或无序处理操作将创建同一对象的多个引用。 * 如果计划直接缓存、排序或聚合Hadoop可写对象,您应该首先使用“map”函数复制它们。 * @pa...原创 2019-12-20 18:31:29 · 362 阅读 · 0 评论 -
HBase中的setCache、setMaxResultSize、setBatch
setCache()客户端通过Rpc一次拉去几条数据(一个KeyRow对于一条数据)setMaxResultSize()客户端拉去的数据保存到本地缓存的字节数组大小(每次拉取数据最新的数据都会保持到该文件,覆盖的为最近一次拉取的数据),客户端在查询数据的时候,会先在本地缓存文件中查找,如果不存在,才会去服务端拉取setBatch()客户端通过Rpc一次拉去几条数据最大的列数...原创 2019-11-14 17:32:47 · 533 阅读 · 0 评论 -
Hadoop之HDFS读写流程
HDFS写流程HDFS写流程步骤创建文件1、客户端调用DistributedFileSystem.create()方法Rpc方式(ClientProtocol.create())远程调用NameNode(NameNodeRpcServer)的create()方法在HDFS上创建文件。2、NameNode将该事务操作保持到edits.log文件当中3、NameNode.create()创...原创 2019-10-25 15:57:15 · 388 阅读 · 0 评论 -
Hadoop之HDFS基础概念(二)
HDFS架构大多数分布式框架都是主从架构HDFS也是主从架构1、namenode:主节点,也成管理节点、名称节点2、datanode:从节点,原创 2019-10-18 15:01:28 · 1101 阅读 · 0 评论 -
Hadoop之HDFS基础概念(一)
HDFS是什么1、HDFS是hadoop的一个存储子模块。2、HDFS(全称Hadoop Distributed File System),即为hadoop的分布式文件系统3、File System:文件系统,cao原创 2019-10-14 18:58:59 · 404 阅读 · 0 评论 -
hadoop机架感知原理
什么是机架感知在hdfs中,存储文件是按照block块存储在不同的服务器磁盘上,一个block默认大小为128M,一个大的文件会被分为N个block存储。block会会有副本,hdfs默认副本个数为3个。机架感知就是为了解决hdfs存储的高效和安全性:客户端上传文件,文件的第一个block会存储在客户端所在的datanode,或者是第一个datanode。在默认情况下机架感知是未被开启。...原创 2019-10-11 11:45:54 · 1307 阅读 · 0 评论 -
内网搭建hadoop集群外网访问
dfs.client.use.datanode.hostname当hadoop集群使用内网搭建,使用外网访问hadoop,上次或者下载文件时,是没办法直接访问datanode。解决方式:第一步:在开发机器上的hosts中做datanode的ip映射第二步:在hdfs-site.xml配置 <property> <name>dfs.client.u...原创 2019-10-11 15:08:46 · 3640 阅读 · 1 评论