
kafka
文章平均质量分 80
大数据学习爱好者
想学好技术的年轻人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第四讲-hbase的常见面试题和布隆过滤器
布隆过滤器1.布隆过滤器2.1.布隆过滤器它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。布隆过滤器判断一个元素不在,肯定不在判断元素在的话,再数据库在进行查询。实现原理:布隆过滤器的实现原理和hash表的数据原理差不多。数据通过hash函数将数据映射到某个地址。如果有冲突会( 拉链法、开放地址法)出处理数据冲突的。布隆过滤器主要是数据通过通过映射函数映射到多个二进制位上。当某个数据映射到多个二进制位有一个不为1,说明不存在。数据通过原创 2022-03-13 23:42:32 · 2333 阅读 · 0 评论 -
Hbase 基础第三讲底层原理
hbase 底层原理1.hbase 架构2.物理存储2.1整体物理结构1.hbase 架构Client职责HBase有两张特殊表:.META.:记录了用户所有表拆分出来的的Region映射信息,.META.可以有多个Regoin-ROOT-:记录了.META.表的Region信息,-ROOT-只有一个Region,无论如何不会分裂。ZooKeeper职责1.ZooKeeper为HBase提供Failover机制,选举Master,避免单点Master单点故障问题2.存储所有Region的寻原创 2022-03-13 22:46:26 · 2357 阅读 · 0 评论 -
Hbase 基础第二讲-javaApi
java API1.java api 操作hbase1.java api 操作hbasepublic class HbaseDemoTest { // 声明静态配置 static Configuration conf = null; private static final String ZK_CONNECT_STR = "bigdata02:2181,bigdata03:2181,bigdata04:2181,bigdata05:2181";原创 2022-03-11 16:56:12 · 876 阅读 · 0 评论 -
Hbase 基础第一讲-基本原理
基本原理1.Hbase概述1.1 什么是Hbase?1.2 hbase 特点1.3 Hbase 核心物理概念1.Hbase概述1.1 什么是Hbase?HBase 是建立在 HDFS之上,高可靠性、高性能、列存储、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。1.2 hbase 特点库:1、高并发,解决海量数据集的随机实时增删改查2、HBase本质依然是Key-Value数据库,不支持join等复杂操作3、不支持复杂的事务,只支持行级事务4、HBas原创 2022-03-11 09:18:35 · 228 阅读 · 0 评论 -
Hive第三讲 调优
hive 调优1.调优概述1、Hive的建表设计层面1.1利用分区表优化1.2 利用分桶表优化1.3 选择合适的文件存储格式1.4 选择合适的压缩格式2、HQL语法和运行参数层面2.1.查看Hive执行计划2.2列裁剪2.3 分区裁剪2.4 谓词下推1.调优概述Hive调优的作用:在保证业务结果不变的前提下,降低资源的使用量,减少任务的执行时间。1、Hive的建表设计层面1.1利用分区表优化当一个 Hive 表的查询大多数情况下,会根据某一个字段进行筛选时,那么非常适合创建为分区表,该字段即为分原创 2022-03-02 22:40:37 · 568 阅读 · 0 评论 -
kafka--知识点3--3
1.kafka消费者1.1消费方式consumer 采用 pull(拉)模式从 broker 中读取数据。pull 模式不足之处是,如果 kafka 没有数据,消费者可能会陷入循环中timeout。1.2 分区分配策略一个 consumer group 中有多个 consumer,一个 topic 有多个 partition,所以必然会涉及 到 partition 的分配问题,即确定那个 ...原创 2019-11-03 16:45:27 · 157 阅读 · 0 评论 -
kafka--知识点二-2
1.kafka工作流程Kafka 中消息是以 topic 进行分类的,生产者生产消息,消费者消费消息,都是面向 topic 的。topic 是逻辑上的概念,而 partition 是物理上的概念,每个 partition 对应于一个 log 文件,该 log 文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该 log 文件末端,且每条数据都有自己的 ...原创 2019-11-02 23:06:10 · 213 阅读 · 0 评论 -
kafka--知识点一1
1.kafka定义定义Kafka是一个分布式的基于发布/订阅模式的消息队列(MessageQueue),主要应用于大数据实时处理领域2.传统消息队列的应用场景 消息队列的好处是:1.解耦2.可恢复性3.缓冲2.消息队列的两种模式1.点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)消息生产者生产消息发送到 Queue 中,然后消息消费者从 Queue 中取出并且消费消息...原创 2019-11-01 21:00:01 · 186 阅读 · 0 评论