王知无(import_bigdata)
微信搜:import_bigdata
GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData
展开
-
【硬刚HBase】HBASE基础(1):HBase 简介
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hive部分补充。1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。2HBase数据模型逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。2.1HBase逻辑结构2.2HBase物理存储结构2.3数据模型1...转载 2021-09-15 20:02:41 · 472 阅读 · 0 评论 -
【硬刚HBase】HBASE进阶(1):RegionServer 架构
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的HBase部分补充。1 架构原理1)StoreFile 保存实际数据的物理文件,StoreFile 以 HFile 的形式存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile(HFile),数据在每个 StoreFile 中都是有序的。2)MemStore 写缓存,由于 HFile 中的数据要求是有序的,所以数据是先存储在 MemStore 中,排好序后,等到达.原创 2021-09-15 20:56:11 · 402 阅读 · 0 评论 -
【硬刚HBase】HBASE优化(1):预分区/RowKey设计/内存优化/基础优化
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的HBase部分补充。1 高可用 在HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 HMaster 的高可用配置。1.关闭 HBase 集群(如果没有开启则跳过此步)[atguigu@hadoop102原创 2021-09-15 22:18:42 · 1411 阅读 · 0 评论 -
【硬刚HBase】HBASE基础(2):HBASE使用(1)HBase安装部署
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》Hbase的部分补充。1Zookeeper正常部署首先保证Zookeeper集群的正常部署,并启动之:[atguigu@hadoop102 zookeeper-3.5.7]$ bin/zkServer.sh start[atguigu@hadoop103 zookeeper-3.5.7]$ bin/zkServer.sh start[atguigu@hadoop104 zookeeper-3.5.7]$ bin.原创 2021-09-15 20:13:40 · 351 阅读 · 0 评论 -
【硬刚Hbase】HBASE进阶(2):写流程/MemStore Flush
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。1 写流程写流程:1)Client先访问zookeeper,获取hbase:meta表位于哪个RegionServer。2)访问对应的Region Server,获取hbase:meta表,根据读请求的namespace:table/rowkey,查询出目标数据位于哪个RegionServer中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端..原创 2021-09-19 23:53:28 · 331 阅读 · 0 评论 -
【硬刚Hbase】HBASE基础(3):语法(1)shell操作 (1) DDL namespace/表的操作
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。1基本操作1.1 进入HBase客户端命令行[atguigu@hadoop102 hbase]$ bin/hbase shell1.2 查看帮助命令hbase(main):001:0> help2namespace的操作2.1查看当前Hbase中有哪些namespacehbase(main):002:0> list_namespaceNAMESPAC...原创 2021-09-19 23:48:29 · 357 阅读 · 0 评论 -
【硬刚Hbase】HBASE进阶(3):读流程
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。1)整体流程2)Merge细节读流程1)Client先访问zookeeper,获取hbase:meta表位于哪个RegionServer。2)访问对应的Region Server,获取hbase:meta表,根据读请求的namespace:table/rowkey,查询出目标数据位于哪个RegionServer中的哪个Region中。并将该table的region信..原创 2021-09-20 00:00:00 · 331 阅读 · 0 评论 -
【硬刚Hbase】HBASE进阶(4): StoreFile Compaction/Region Split
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。1 StoreFileCompaction 由于memstore每次刷写都会生成一个新的HFile,且同一个字段的不同版本(timestamp)和不同类型(Put/Delete)有可能会分布在不同的HFile中,因此查询时需要遍历所有的HFile。为了减少HFile的个数,以及清理掉过期和删除的数据,会进行StoreFileCompaction。 Compaction分为两种,分别是Min..原创 2021-09-20 00:10:38 · 461 阅读 · 0 评论 -
【硬刚HBase】HBASE基础(4):语法(2) API (1) DDL
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的HBase部分补充。1环境准备新建项目后在pom.xml中添加依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>2.0.5</version></depe.原创 2021-09-15 21:18:43 · 309 阅读 · 0 评论 -
【硬刚Hbase】HBASE基础(5):语法(3) API (2) DML
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。1插入数据import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.ha.原创 2021-09-20 00:02:48 · 318 阅读 · 0 评论 -
【硬刚HBase】HBASE进阶(5):整合Phoenix
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的HBase部分补充。1Phoenix简介1.1Phoenix定义Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。1.2Phoenix特点1)容易集成:如Spark,Hive,Pig,Flume和Map Reduce;2)操作简单:DML命令以及通过DDL命令创建和操作表和版本化增量更改;3)支持HBase二...原创 2021-09-15 21:59:18 · 375 阅读 · 0 评论 -
【硬刚HBase】HBASE进阶(6):与Hive的集成
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的HBase部分补充。1.1HBase与Hive的对比1.Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce.原创 2021-09-15 22:31:13 · 328 阅读 · 0 评论 -
【硬刚HBase】HBASE进阶(7):扩展
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的HBase部分补充。11.1 HBase在商业项目中的能力每天:1)消息量:发送和接收的消息数超过60亿2) 将近1000亿条数据的读写3) 高峰期每秒150万左右操作4) 整体读取数据占有约55%,写入占有45%5) 超过2PB的数据,涉及冗余共6PB数据6) 数据每月大概增长300千兆字节。11.2布隆过滤器在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个..原创 2021-09-19 01:48:42 · 343 阅读 · 0 评论 -
【硬刚Hbase】Hbase基础(十八):亿级数据从 MySQL 到 Hbase 的三种同步方案与实践(二)亿级MySQL数据插入
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。本节题目为:亿级数据从 MySQL 到 Hbase 的三种同步方案与实践,首先需要了解如何快速插入MySQL。那么MySQL数据插入将会从以下几个方法入手: load data infile Python 单条插入 Python 多线程插入 当然也可以使用其他语言进行实现!!!下面来逐步谈谈数据插入!数据插入之前,需要了解我们的数据,先来看一下数据字段描述:原创 2021-09-19 22:38:20 · 516 阅读 · 0 评论 -
【硬刚Hbase】Hbase基础(十七):亿级数据从 MySQL 到 Hbase 的三种同步方案与实践(一)环境搭建
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。本节亿级数据从 MySQL 到 Hbase 的三种同步方案与实践将主要围绕下面架构图中的三种方法进行实践与讲解。2.工欲善其事,必先利其器2.1 环境需知我的实验环境为:Ubuntu16.04+hadoop伪分布式(所以重点会介绍伪分布式环境部署),本节实验可以适用于大部分Linux。实验的环境有: MySQL Hadoop伪分布式/完全分布式 HBase原创 2021-09-19 22:32:21 · 513 阅读 · 0 评论 -
【硬刚Hbase】Hbase基础(十九):亿级数据从 MySQL 到 Hbase 的三种同步方案与实践(三)同步利器
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。4.1 简单粗暴Sqoop首先来回顾一下Sqoop架构图:架构图这里大家记住一个规则:大数据需要切分!如果不切分,这个亿级数据直接导入会崩溃!!!★什么是Sqoop?”Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的开源工具,可以将一个关系型数据库中的数据导进到Hadoop的HDFS或者HBase等。sqoop核心参数与代码解释:sqoop import原创 2021-09-19 23:07:51 · 384 阅读 · 0 评论 -
【硬刚Hbase】Hbase基础(二十):亿级数据从 MySQL 到 Hbase 的三种同步方案与实践(四)对比
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。Phoenix组件和原生Hbase查询的时间性能对比 原生Hbase查询时间: count'mysql_data' enter image description hereHbase查询时间为3856秒大约1小时7分钟 Hbase查询优化 count'mysql_data', INTERVAL =>10000000 ...转载 2021-09-19 23:10:06 · 729 阅读 · 0 评论 -
【硬刚Hbase】Hbase基础(二十一):python操作hbase之happybase
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。0 hbase准备0.1 使用happybase库操作hbase先安装该库 pip install happybase0.2 然后确保 hadoop 和 hbase 可用并开启能进行hdfs操作就代表hadoop正常运行能在 hbase shell 下使用 list 命令并不报错就代表能正常运行0.3 开启thrift使用命令开启$HBASE_HOME/bin/hbase-daemo原创 2021-09-19 23:15:35 · 662 阅读 · 0 评论 -
HBase学习笔记(二)HBase架构
HBase Architectural Components(HBase架构组件)HBase架构也是主从架构,由三部分构成HRegionServer、HBase Master和ZooKeeper。RegionServer负责数据的读写与客户端交互,对于region的操作则是由HMaster处理,ZooKeeper则是负责维护运行中的节点。在底层,它将数据存储于HDFS文件中,因而涉及到HD...原创 2019-04-04 22:33:48 · 386 阅读 · 0 评论 -
HBase数据模型
HBase是运行在Hadoop集群上的一个数据库,与传统的数据库有严格的ACID(原子性、一致性、隔离性、持久性)要求不一样,HBase降低了这些要求从而获得更好的扩展性,它更适合存储一些非结构化和半结构化的数据。 Apache HBase is a database that runs on a Hadoop cluster. HBase is not a traditional RDB...原创 2019-04-04 22:22:23 · 735 阅读 · 0 评论