- 博客(7)
- 收藏
- 关注
原创 Hbase的架构以及数据模型
一.Hbase架构1.Client包含访问HBase的接口并维护cache来加快对HBase的访问2.Zookeeper保证任何时候,集群中只有一个活跃master存贮所有Region的寻址入口。实时监控Region server的上线和下线信息。并实时通知Master存储元数据3.Master为Region server分配region负责Region server的负载均衡...
2019-04-19 08:49:23
296
原创 HBase性能优化
HBase性能优化方法总结(一):表的设计表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分...
2019-04-18 08:57:16
360
原创 yarn的作用以及执行流程
一.什么是yarnYARN 是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、 NodeManager(NM)、ApplicationMaster(AM)。 ResourceManager 负责所有资源的监控、分配和管理; ApplicationMaster 负责每一个具体应用程序的调度和协调; NodeManager 负责每一个节点的维护。 对于所有的 ...
2019-04-17 08:39:04
10382
1
转载 java中JVM内存由哪些部分组成,以及功能划分
Java虚拟机内存的五大区域Java的运行离不开Java虚拟机的支持,今天我就跟大家探讨一下Java虚拟机的一些基础知识。JVM内存区域分为五个部分,分别是堆,方法区,虚拟机栈,本地方法栈,程序计数器。JVM内存区域堆。 堆是Java对象的存储区域,任何用new字段分配的Java对象实例和数组,都被分配在堆上,Java堆可使用-Xms -Xmx进行内存控制,值得一提的是从JDK1.7...
2019-04-16 08:43:35
2757
原创 MAPREDUCE相关知识点总结
一.mapreduce的特点可以让你的应用在集群中可靠的容错的并行处理TB级别的数据二.分布式计算框架三.mapreduce流程图四.mapreduce的工作流程1、输入文件分片,每一片都由一个MapTask来处理2、Map输出的中间结果会先放在内存缓冲区中,这个缓冲区的大小默认是100M,当缓冲区中的内容达到80%时(80M)会将缓冲区的内容写到磁盘上。也就是说,一个map会输出...
2019-04-15 08:49:17
876
原创 对HDFS的读流程和写流程的理解
一.HDFS写文件流程图二.HDFS写文件流程(1)调用客户端的对象DISTRIBUTEDFILESYSTEM()的CREATE方法;(2)DISTRIBUTEDFILESYSTEM会发起对NAMENODE的一个RPC连接,请求创建一个文件,。NAMENODE会执行各种各样的检查,确保要创建的文件不存在,并且客户端有创建文件的权限。如果检查通过,NAMENODE会创建一个文件(在EDITS...
2019-04-11 17:14:47
291
原创 HDFS架构和HA集群的简单理解
一.简述HDFS架构HDFS是Hadoop分布式文件系统, 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode.HDFS架构图二.HDFS架构中的角色1.HDFS Client:客户端a.文件切分文件上传 HDFS 的时候,Client 将文件切分成 一个一个...
2019-04-10 18:28:40
989
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人