
kafka
文章平均质量分 80
大数据学习爱好者
想学好技术的年轻人
展开
-
第四讲-hbase的常见面试题和布隆过滤器
布隆过滤器1.布隆过滤器2. 1.布隆过滤器 它实际上是一个很长的二进制向量和一系列随机 映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。 布隆过滤器判断一个元素不在,肯定不在 判断元素在的话,再数据库在进行查询。 实现原理: 布隆过滤器的实现原理和hash表的数据原理差不多。数据通过hash函数将数据映射到某个地址。如果有冲突会( 拉链法、开放地址法)出处理数据冲突的。 布隆过滤器主要是 数据通过通过映射函数映射到多个二进制位上。当某个数据映射到多个二进制位有一个不为1,说明不存在。数据通过原创 2022-03-13 23:42:32 · 2308 阅读 · 0 评论 -
Hbase 基础第三讲底层原理
hbase 底层原理1.hbase 架构2.物理存储2.1整体物理结构 1.hbase 架构 Client职责 HBase有两张特殊表: .META.:记录了用户所有表拆分出来的的Region映射信息,.META.可以有多个Regoin -ROOT-:记录了.META.表的Region信息,-ROOT-只有一个Region,无论如何不会分裂。 ZooKeeper职责 1.ZooKeeper为HBase提供Failover机制,选举Master,避免单点Master单点故障问题 2.存储所有Region的寻原创 2022-03-13 22:46:26 · 2336 阅读 · 0 评论 -
Hbase 基础第二讲-javaApi
java API1.java api 操作hbase 1.java api 操作hbase public class HbaseDemoTest { // 声明静态配置 static Configuration conf = null; private static final String ZK_CONNECT_STR = "bigdata02:2181,bigdata03:2181,bigdata04:2181,bigdata05:2181";原创 2022-03-11 16:56:12 · 853 阅读 · 0 评论 -
Hbase 基础第一讲-基本原理
基本原理1.Hbase概述1.1 什么是Hbase?1.2 hbase 特点1.3 Hbase 核心物理概念 1.Hbase概述 1.1 什么是Hbase? HBase 是建立在 HDFS之上,高可靠性、高性能、列存储、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。 1.2 hbase 特点 库: 1、高并发,解决海量数据集的随机实时增删改查 2、HBase本质依然是Key-Value数据库,不支持join等复杂操作 3、不支持复杂的事务,只支持行级事务 4、HBas原创 2022-03-11 09:18:35 · 198 阅读 · 0 评论 -
Hive第三讲 调优
hive 调优1.调优概述1、Hive的建表设计层面1.1利用分区表优化1.2 利用分桶表优化1.3 选择合适的文件存储格式1.4 选择合适的压缩格式2、HQL语法和运行参数层面2.1.查看Hive执行计划2.2列裁剪2.3 分区裁剪2.4 谓词下推 1.调优概述 Hive调优的作用:在保证业务结果不变的前提下,降低资源的使用量,减少任务的执行时间。 1、Hive的建表设计层面 1.1利用分区表优化 当一个 Hive 表的查询大多数情况下,会根据某一个字段进行筛选时,那么非常适合创建为分区表,该字段即为分原创 2022-03-02 22:40:37 · 529 阅读 · 0 评论 -
kafka--知识点3--3
1.kafka消费者 1.1消费方式 consumer 采用 pull(拉)模式从 broker 中读取数据。pull 模式不足之处是,如果 kafka 没有数据,消费者可能会陷入循环中timeout。 1.2 分区分配策略 一个 consumer group 中有多个 consumer,一个 topic 有多个 partition,所以必然会涉及 到 partition 的分配问题,即确定那个 ...原创 2019-11-03 16:45:27 · 142 阅读 · 0 评论 -
kafka--知识点二-2
1.kafka工作流程 Kafka 中消息是以 topic 进行分类的,生产者生产消息,消费者消费消息,都是面向 topic 的。 topic 是逻辑上的概念,而 partition 是物理上的概念,每个 partition 对应于一个 log 文件,该 log 文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该 log 文件末端,且每条数据都有自己的 ...原创 2019-11-02 23:06:10 · 202 阅读 · 0 评论 -
kafka--知识点一1
1.kafka定义 定义Kafka是一个分布式的基于发布/订阅模式的消息队列(MessageQueue),主要应用于大数据实时处理领域 2.传统消息队列的应用场景 消息队列的好处是: 1.解耦 2.可恢复性 3.缓冲 2.消息队列的两种模式 1.点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 消息生产者生产消息发送到 Queue 中,然后消息消费者从 Queue 中取出并且消费消息...原创 2019-11-01 21:00:01 · 176 阅读 · 0 评论