咸蛋儿-优快云博客

原创 Kafka消息队列简介及Shell操作

Kafka消息队列介绍Kafka是由Apache软件基金会开发的一个开源流平台，由Scala和Java编写。Kafka的Apache官网是这样介绍Kakfa的。Apache Kafka是一个分布式流平台。一个分布式的流平台应该包含3点关键的能力：1.发布和订阅流数据流，类似于消息队列或者是企业消息传递系统2.以容错的持久化方式存储数据流3.处理数据流一:消息队列的应用场景:异步处理系统解耦流量削峰日志处理（大数据领域常见）二: Kafka模型2.1点对点模式2.2:发布订

2021-04-25 21:29:36 315

原创 Hbase预分区、rowKey设计及协处理器

一、HBase预分区操作HBase默认建表时有一个region，这个region的rowkey是没有边界的，即没有startkey和endkey，在数据写入时，所有数据都会写入这个默认的region，随着数据量的不断增加，此region已经不能承受不断增长的数据量，会进行split，分成2个region。在此过程中，会产生两个问题：1.数据往一个region上写,会有写热点问题。2.region split会消耗宝贵的集群I/O资源。HBase提供了预分区功能，用户可以在创建表的时候对表按照一定的规

2021-04-20 22:05:14 517

原创 Hbase Java API (DDL DML)

Hbase Java APIpackage com.hbase.api;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.*;import org.apache.hadoop.hbase.util.*;import org.slf4j.

2021-04-18 20:03:40 197

原创 Hbase读写原理及三大机制

HBase架构原理HBase读写流程Client对HBase读写请求，跟HMaster没有任何关系，客户端只需要知道Zookeeper的地址即可HBase中有一张非常重要的表—Meta表，存储了HBase所有的表、所有的Region的详细的信息，比如Region开始的key，结束的key，所在Regionserver的地址。Meta表就相当于一个目录，通过它可以快速定位到数据的实际位置,而zookeeper中恰好存储了meta表的region信息，所以先从zookeeper中找到meta表regio

2021-04-18 19:58:15 1622

原创 Hbase架构介绍及开发测试中常用的shell操作命令

Hbase基本架构及常用的 Hbase Shell 命令 (开发测试时用的较多,实际生产中使用API进行CRUD)*Hbase架构原理首先介绍一下Hbase在Hadoop生态圈的中角色和地位Hbase和hadoop关系hbase依赖于hadoop hdfs，因为hbase的表数据最终都是存储在hdfs上面的。与hadoop的关系：紧耦合依赖关系。此外hbase还需要依赖于zookeeper，用于一些元数据的存储。所以也需要提前启动zookeeper集群，并且保证服务是正常的2.Hbase数据

2021-04-12 21:11:29 294

翻译 HiveQL的基础操作全集

一:sql数据操作和查询– 1.语句命令组成：数据定义语言（ddl）,包括create（创建）命令、alter（修改）命令、drop（删除）命令等。 – 主要针对对象的结构数据操纵语言（dml）,包括insert（插入）命令、update（更新）命令、delete（删除）命令等。 – 主要针对表数据查询语言（dql）,包括基本查询语句、order by子句、group by子句等。事务控制语言（tcl）,包括commit（提交）命令、rollback（回滚）命令。数

2020-12-03 21:00:18 1163

weixin_45650409的博客