Hadoop 原理学习
个人学习总结笔记
BarackHusseinObama
好玩,Interesting
展开
-
HBase Timestamp 与幂等性
HBase 的数据模型包括表(Table)、行(Row)、列族(Column Family)、列限定符(Column Qualifier)、单元格(Cells)、时间戳(Timestamp),其中单元格是行与列的交叉点,用来存储数据值,而 timestamp 则是每个值的版本号标识。默认情况下,timestamp 的值是更新数据时的当前时间戳,由系统自动更新,并不太被被关注,但是在实际的项目中,如...原创 2019-03-29 23:09:41 · 3559 阅读 · 0 评论 -
CDH-Hadoop 安装
一、 摘要二、安装1. 基础环境配置1) 主机介绍2) 配置 sudo 无密3) 配置 SSH 无密登陆以及其它基础配置2. 检查系统环境配置3. 安装依赖数据库3.1 MySQL3.1.1 安装3.1.2 启动3.1.3 安装 MySQL JDBC Connector3.1.4 确认 MySQL 服务有开机启动3.1.5 创建 Cloudera Manager ...原创 2018-09-16 23:06:34 · 1509 阅读 · 0 评论 -
Hadoop 原理学习(8)Yarn 概述及其基本原理
一、Yarn 简介二、Yarn 组件ResourceManager (RM)ApplicationMaster(AM)NodeManager(NM)Container(容器)三、提交任务流程客户端向RM提交任务流程运行状态交互四、总结五、参考链接一、Yarn 简介Yarn 是 hadoop 集群的资源管理层。它允许不同的数据处理引擎(...原创 2018-07-18 22:25:45 · 768 阅读 · 0 评论 -
Hadoop 原理学习(7)HBase 架构与工作原理5 - Region 的部分特性
RegionRegion 是表格可用性和分布的基本元素,由列族(Column Family)构成的 Store 组成。对象的层次结构如下:- Table - Region - Store (由每个 Region 中的列族组成的存储块) - MemStore (每个 Region 中存储在内存中的 Store) ...原创 2018-06-14 22:28:39 · 704 阅读 · 0 评论 -
Hadoop 原理学习(6)HBase 架构与工作原理4 - 压缩、分裂与故障恢复
CompacationHBase 在读写的过程中,难免会产生无效的数据以及过小的文件,比如:MemStore 在未达到指定大小便刷新数据以写入到磁盘;或者当已经写入 HFile 的数据被删除后,原数据被标记了墓碑,却仍然存在于 HFile 之中。在这些情况之下,我们需要清除无效的数据或者合并过小的文件来提高读的性能。这种合并的过程也被称为 compacation。HBase 中使用的 co...原创 2018-05-31 19:44:07 · 771 阅读 · 0 评论 -
Hadoop 原理学习(5)HBase 架构与工作原理3 - HBase 读写与删除原理
一、前言在 HBase 中,Region 是有效性和分布的基本单位,这通常也是我们在维护时能直接操作的最小单位。比如当一个集群的存储在各个节点不均衡时,HMaster 便是通过移动 Region 来达到集群的平衡。或者某一个 Region 的请求过高时,通过分裂 Region 来分散请求。或者我们可以指定 Region 的 startKey 和 endKey 来设计它的数据存放范围等等。所...原创 2018-05-30 20:22:50 · 2124 阅读 · 0 评论 -
Hadoop 原理学习(4)HBase 架构与工作原理2 - HBase 组件
一、HBase 组件概览Master-Slave 模式: HBase 体系结构遵循传统的 master-slave 模式,由一位掌握决策的主设备和一个或多个真正处理任务的从设备组成。在 HBase 中,主设备称为 HMaster,从设备被称为 HRegionServers,主从设备之间则通过 Zookeeper 共享状态信息。HBase 组成: 从物理层面,HBase 由 3 个部分:...原创 2018-05-27 19:36:12 · 900 阅读 · 0 评论 -
Hadoop 原理学习(3)HBase 架构与工作原理1 - HBase 的数据模型
一、应用场景二、Table 组成元素表(Table)行(Row)列族(Column Family)单元格(Cells)三、示例逻辑视图物理视图参考链接一、应用场景HBase 与 Google 的 BigTable 极为相似,可以说 HBase 就是根据 BigTable 设计的,这一点在 BigTable 论文中也能发现。在 BigTab...原创 2018-05-17 22:27:41 · 566 阅读 · 0 评论 -
Hadoop 原理学习(2)HDFS 架构与工作原理
一、目标HDFS 全称 Hadoop 分布式文件系统,其最主要的作用是作为 Hadoop 生态中各系统的存储服务。面对大规模的数据,HDFS 在设计上满足了以下目标:高度容错性: HDFS 可能由成百上千的服务器构成,任何一个组件都可能失效,因此错误检测和快速、自动的恢复时 HDFS 最核心的架构目标。支持大规模数据集: 运行在 HDFS 应用具有很大的数据集,它应该能提供整体...原创 2018-04-05 23:15:16 · 2156 阅读 · 0 评论 -
Google GFS, BigTable, MapReduce 论文中文版地址
GFS 论文: http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable中文版_1.0.pdf BigTable 论文:http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable中文版_1.0.pdf MapReduce 论文:http://blo...原创 2018-04-05 00:58:41 · 957 阅读 · 2 评论 -
Hadoop 原理学习(1)Hadoop 各服务的作用简述
注:以下服务为基于安装Hadoop 2.6.0-cdh5.8.3后的所得服务,但并不是全部。1. HDFSNameNodeNameNode是一个中心服务器,负责管理文件系统的namespace以及客户端对文件的访问。NameNode执行文件系统的namespace操作,比如打开、关闭、重命名文件或目录。同时它还确定block到DataNode节点的映射。Namenode...原创 2018-03-20 23:02:25 · 4094 阅读 · 0 评论 -
Spark _on_Yarn 资源池内存限制测试报告 - 防止"非法"任务的提交
需求背景讲道理,用户在提交 Spark_on_yarn 任务 时,应该指定--executor-memory属性(公司自己的规定),并且使用特定的用户提交,以便于 DBA 的管理。但是仍然存在一些用户直接使用 root 账户提交任务,这样在 yarn 的资源池中就会被分配到 root.user.root池中,如果集群压力过大,那么便不能迅速的找到该任务 的所有者,从而可能会对其它 team 的原创 2018-01-19 19:22:41 · 2523 阅读 · 0 评论 -
HBase 部分表无法写入数据的异常处理
HBase 无法写入数据到某张表,服务状态均正常,并且可能只是某一张表或者部分表发生无法写入问题,那么此时可能是某一个或几个 RegionServer 出了问题,使其状态变更为 PENDING_CLOSE,从而无法写入数据,但是它们的服务状态可能仍然显示为正常。 注:这其中的一种可能的情况,不能证明所有的无法写入的问题均来自于此。1. 检查 Regions in Transition 以c原创 2017-11-11 21:35:32 · 5791 阅读 · 0 评论 -
[HBase源码] HBaseAdmin的重试机制源码分析
1. 前言HBase 版本:V 1.0.0在项目中获取HTable的详细信息时,Http connection一直处于pending状态,这是由于我的机器无法Ping通新加入的集群,但是这个connection 的pending时长已经超过了1小时之久,并且在org.apache.hadoop.hbase.client.ConnectionManager.checkIfBaseNodeAvailab原创 2017-04-20 21:17:11 · 1479 阅读 · 0 评论 -
RDDs, Spark Memory, and Execution
弹性分布式数据集 (RDDs)目的 / 动机Sprak的实现https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf2014 ACM Doctoral Dissertation Award (Matei Zaharia, Spark creator, Databricks cofounder)为什么需翻译 2016-12-15 21:54:40 · 76339 阅读 · 0 评论 -
HBase RegionLoad获取Name乱码问题的源码分析与解决方式
通过RegionLoad可以获得一系列有关Region负载的详细信息,但是因为需要通过regionName与HRegionInfo中的regionName匹配,从而合并相关信息(保存的时候没有保存字节数组的regionName,太长了并且不直观,同时还需要clusterName信息,以保证其唯一性),所以也正因为如此,才带来了标题中的问题。由于每次抓取的Region数量在一两万左右,所原创 2016-11-04 18:19:45 · 1522 阅读 · 0 评论 -
HBase Snapshot 相关操作原理
1. 前言HBase 从0.95开始引入了 Snapshot,Snapshot 相关操作主要是对 table 做备份与还原等,这在容灾方面是必不可少的,而由于在实际工作中遇到了部分问题需要阅读源码以了解其具体的原理,所以本文将根据源码来简单描述 Snapshot 相关操作的原理。注:本文着重关注 snapshot 相关操作时,目录或文件的变化情况,未对每一细节的原创 2016-08-04 18:20:46 · 5950 阅读 · 14 评论