
Hadoop
森林森
java学习
展开
-
HBase原理-介绍
HBase原理HBase读数据流程HBase读操作1)首先从zk找到meta表的region位置,然后读取meta表中的数据,meta表中存储了用户表的region信息2)根据要查询的namespace、表名和rowkey信息。找到写入数据对应的region信息3)找到这个region对应的regionServer,然后发送请求4)查找对应的region5)先从memstore查找数据,如果没有,再从BlockCache上读取HBase上Regionserver的内存分为两个部分一部分原创 2020-10-19 11:35:53 · 411 阅读 · 0 评论 -
HBase shell 基本操作
HBase shell 基本操作进入Hbase客户端命令操作界面 hbase shell查看帮助命令help查看当前数据库中有哪些表list创建一张lagou表, 包含base_info、extra_info两个列族create 'lagou', 'base_info', 'extra_info'或者create 'lagou', {NAME => 'base_info', VERSIONS => '3'},{NAME => 'extra_info',VERSI原创 2020-10-19 10:42:04 · 883 阅读 · 0 评论 -
HBase 简介
HBase是什么HBase 基于 Google的BigTable论文而来,是一个分布式海量列式非关系型数据库系统,可以提供超大规模数据集的实时随机读写。如下MySQL存储机制,空值字段浪费存储空间如果是列存储的话,可以这么玩…rowkey:1 name:小明rowkey:1 age:23rowkey:1 job:学生rowkey:2 name :小红rowkey:2 salary:10wrowkey:2 job:律师…列存储的优点:1)减少存储空间占用。2)支持好多列H原创 2020-10-19 10:14:59 · 232 阅读 · 1 评论 -
YARN资源调度
YARN架构ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、原创 2020-10-16 11:04:25 · 299 阅读 · 0 评论 -
MapReduce原理分析
MapReduce原理分析MapTask运行机制详解详细步骤:首先,读取数据组件InputFormat(默认TextInputFormat)会通过getSplits方法对输入目录中文件进行逻辑切片规划得到splits,有多少个split就对应启动多少个MapTask。split与block的对应关系默认是一对一。将输入文件切分为splits之后,由RecordReader对象(默认LineRecordReader)进行读取,以\n作为分隔符,读取一行数据,返回<key,value>。原创 2020-10-16 10:47:05 · 775 阅读 · 0 评论 -
MapReduce编程框架-简述
MapReduce编程框架MapReduce思想MapReduce思想在生活中处处可见。我们或多或少都曾接触过这种思想。MapReduce的思想核心是分而治之,充分利用了并行处理的优势。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。MapReduce任务过程是分为两个处理阶段:Map阶段:Map阶段的主要作用是“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。Map阶段的这些任务可以并行计算,彼此间没有依赖关系。Reduce阶段:Reduce阶段的主要作用原创 2020-10-15 17:51:53 · 1251 阅读 · 0 评论 -
HDFS NN与2NN
HDFS元数据管理机制问题1:NameNode如何管理和存储元数据?计算机中存储数据两种:内存或者是磁盘元数据存储磁盘:存储磁盘无法面对客户端对元数据信息的任意的快速低延迟的响应,但是安全性高元数据存储内存:元数据存放内存,可以高效的查询以及快速响应客户端的查询请求,数据保存在内存,如果断点,内存中的数据全部丢失。解决方案:内存+磁盘;NameNode内存+FsImage的文件(磁盘)新问题:磁盘和内存中元数据如何划分两个数据一模一样,还是两个数据合并到一起才是一份完整的数据呢?一模一样:原创 2020-10-13 15:25:21 · 419 阅读 · 0 评论 -
HDFS读写解析
HDFS读写解析HDFS读数据流程客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)客户端以Packet为单位接收,先在本地缓存,然后写入目标文件HDFS写数据流程客户端通过Distributed FileSystem模原创 2020-10-13 15:12:13 · 95 阅读 · 0 评论 -
HDFS分布式文件系统-简介
HDFS分布式文件系统HDFS 简介HDFS (全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。HDFS是分布式文件系统中的一种HDFS的重要概念HDFS 通过统一的命名空间目录树来定位文件; 另外,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色(分布式本质是拆分,各司原创 2020-10-13 15:04:12 · 615 阅读 · 0 评论 -
Apache Hadoop 完全分布式集群 搭建
centos7实现免密登录在node01上生产一对钥匙(公钥和私钥)首先在root用户下,执行ssh-keygen -t rsa,一路回车,接着会产生在/root目录下会产生.ssh目录查看 .ssh 目录,会发现它下面生成了两个 id_rsa , id_rsa.pub文件ssh-copy-id node01ssh-copy-id node02ssh-copy-id node03同理其它节点也一样虚拟机环境准备三台虚拟机(静态IP,关闭防火墙,修改主机名,配置免密登录,集群时间同步)原创 2020-10-12 17:16:44 · 338 阅读 · 1 评论 -
Apache Hadoop的重要组成
Hadoop的广义和狭义之分狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:HDFS:分布式文件系统–》存储;MapReduce:分布式离线计算框架–》计算;Yarn:资源调度框架广义的Hadoop:广义Hadoop是不仅仅包含Hadoop框架,除了Hadoop框架之外还有一些辅助框架。Flume:日志数据采集,Sqoop:关系型数据库数据的采集;Hive:深度依赖Hadoop框架完成计算(sql),Hbase:大数据领域的数据库(mysql)Sqoop:数据的导出广义Hado原创 2020-10-10 20:11:56 · 352 阅读 · 0 评论