
hadoop
重启试试..
喜欢钻研大数据、python、机器学习、人工智能...
展开
-
hadoop知识点总结
1: hadoop 1.x由 hdfs 和 MapReduce 组成。2: hadoop 2.x由 hdfs 和 MapReduce 和 YARN三个分支组成。hdfs:NN Federation (联邦) 和 HA。hadoop 2.x 只支持2个节点HA。3:hadoop 3.x实现了一主多备。4: hadoop的发展史Hadoop的思想之源:Goo...原创 2019-12-05 17:04:15 · 247 阅读 · 0 评论 -
zookeeper知识点总结
Zookeeper简介Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式 协调 服务 service包含一个简单的原语集,分布式应用程序可以基于它实现:攘其外状态下 大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等)目前,大部分应用需要开发私有的协调程序,缺乏一个通用的机制 协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器-ZooKeeper:提供通用的分布式锁服务,用以协调分布式应用-原创 2020-05-27 15:43:38 · 259 阅读 · 0 评论 -
Hbase面试题
1.hbase的特点是什么?答:1)hbase是一个分布式的,基于列式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理。2)hbase 适合存储半结构化或非结构化的数据,对于数据结构字段不够确定或者杂乱无章很难按照一个概念去抽取的数据。3)hbase为null的数据不会被存储4)基于的表包含rowKey,时间戳和列族,新写入数据时,时间戳更新,同时可以查询到以前的版本5)hbase是主从结构,hmaster作为主节点,hregionServer作为从节点6)hbase存储原创 2020-05-27 15:30:12 · 512 阅读 · 0 评论 -
Hbase表设计
1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。1.2 Row Key HBase中row key用来检索表中的记录,支持以下三种方式:• 通过单个row key访原创 2020-05-26 15:26:20 · 340 阅读 · 0 评论 -
Hadoop之MapReduce
MapReduce 总结1:mapReduce 优点《具有 易于编程、高容错性和高扩展性等优点》。1:高容错性:Mapreduce的设计初衷就是使程序能够部署在廉价的pc机器上,这就要求它具有很高的容错性。比如一个机器挂了,它可以把上面的计算任务转移到另一个节点上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由hadoop内部完成的2:高扩展性: 项目当你的...原创 2019-12-05 20:14:37 · 201 阅读 · 0 评论 -
hadoop的安全模式
Hadoop的安全模式1:集群的安全模式1:namenode启动的时候,首先将映像文件(fsimage)载入内存,。并执行编辑日志(edits)中的各项操作。2:一旦在内存中成功建立文件系统元数据的映射,则创建一个新的fsimage文件(这个操作不需要SecondaryNameNode)和一个空的编辑日志3:此刻namenode运行在安全模式。即namenode的文件系统对于H...原创 2019-12-05 18:54:11 · 215 阅读 · 0 评论