
BigData
文章平均质量分 85
PineApple_Chan
大三狗 分享面经 学习心得 知识总结 + 欢迎 Follow me
展开
-
Zookeeper底层技术细节及常用使用场景——知识总结
Zookeeper简介:Zookeeper 是一个开源的分布式协调服务,目前由 Apache 进行维护。Zookeeper 可以用于实现分布式系统中常见的发布/订阅、负载均衡、命令服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。它具有以下特性:顺序一致性:从一个客户端发起的事务请求,最终都会严格按照其发起顺序被应用到 Zookeeper 中原子性:所有事务请求的处理结果在整个集群中所有机器上都是一致的;不存在部分机器应用了该事务,而另一部分没有应用的情况单一视图原创 2021-08-16 23:44:11 · 280 阅读 · 0 评论 -
Kafka细节及常见问题——知识总结
Kafka特点:高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作可扩展性:Kafka集群支持热扩展持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)高并发:支持数千个客户端同时读写Kafka架构:多个Producer,一个Kafka Cluster,多个Co原创 2021-08-16 23:43:09 · 279 阅读 · 0 评论 -
Kafka底层细节梳理——知识总结
Kafka特点:高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作可扩展性:Kafka集群支持热扩展持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)高并发:支持数千个客户端同时读写Kafka架构:多个Producer,一个Kafka Cluster,多个Co原创 2021-08-16 23:41:54 · 229 阅读 · 0 评论 -
Kafka架构特性——知识总结
Kafka定义:最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于Hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等Kafka特性:高吞吐量、低延迟:Kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition,原创 2021-08-15 11:16:19 · 768 阅读 · 0 评论 -
Hive与数据仓库——知识总结
Hive介绍:Hive建立在Hadoop上的数据仓库基础框架,提供了一系列工具,存储,查询和分析存储在分布式存储系统中的大规模数据集,可以将结构化的数据文件映射为一张数据库表如(csv),并提供类SQL查询功能Hive它能存储很大数据集,可以直接访问存储在HDFS中的文件,Hive支持MR,Spark,Tez三种分布式计算引擎,Hive的简单的类SQL查询语言,通过底层的计算引擎,将SQL转为具体的计算任务进行执行Hive底层与数据库交互原理:由于Hive的元数据可能要面临不断地更新、修改和读原创 2021-08-15 11:14:44 · 738 阅读 · 0 评论 -
Hive中排序、JOIN——知识总结
Hive中的join:Hive中除了支持和传统数据库中一样的内关联(join)、左关联(left join)、右关联(right join)、全关联(outer join),还支持LEFT SEMI JOIN和CROSS JOIN,但这两种JOIN类型也可以用前面的代替注意:Hive中Join的关联键必须在ON ()中指定,不能在Where中指定,否则就会先做笛卡尔积,再过滤内关联(JOIN):只返回能关联上的结果左外关联(LEFT [OUTER] JOIN):以LEFT [OUTER原创 2021-08-15 11:11:26 · 493 阅读 · 0 评论 -
Hive调优思路——知识总结
Hive调优:对分析的数据选择合适的「存储格式」与「压缩方式」能提高hive的分析效率数据的压缩格式:选择压缩算法的时候需要考虑到是否可以分割,如果不支持分割(切片的时候需要确定一条数据的完整性),则一个map需要执行完一个文件,如果文件很大,则效率很低。一般情况下hdfs一个块(128M)就是一个map的输入切片,而block是按物理切割的,可能一条数据会被切到两个块中去数据的存储格式:TextFile(行存储、Gzip压缩)Hive数据表的默认格式,存储方式:行存储。原创 2021-08-15 11:09:04 · 256 阅读 · 0 评论 -
MapReduce细节流程及底层原理梳理——知识总结
MR整体流程:分片、格式化:分片操作:指的是将源文件划分为大小相等的小数据块(Hadoop 2.x 中默认 128MB ),也就是分片(split ),Hadoop 会为每一个分片构建一个 Map 任务,并由该任务运行自定义的 map() 函数,从而处理分片里的每一条记录。(MapTask的数量 == 文件分片的个数)格式化操作:将划分好的分片(split)格式化为键值对<key,value>形式的数据,其中, key 代表偏移量, value 代表每一行内容执行MapTa原创 2021-08-15 11:06:58 · 418 阅读 · 0 评论 -
YARN架构及原理——知识总结
Yarn介绍:Yarn是Hadoop集群中的资源管理系统模块,从Hadoop2.0引入Yarn模块,Yarn可以为各类计算框架提供资源管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU、内存、磁盘、网络I/O)以及调度运行在Yarn上面的各种任务总结:调度系统资源、管理计算任务Yarn的组成部分(Master/Slave架构):Resource Manager(Applications Manager应用程序管理器、Scheduler调度器):处理Client原创 2021-08-15 11:05:08 · 517 阅读 · 0 评论 -
实时计算架构选型——自我总结
实时计算特征无限数据基本上无限的数据集。这些通常被称为“流数据”,而与之相对的是有限的数据集无限数据处理一种持续的数据处理模式,能够通过处理引擎重复的去处理上面的无限数据,是能够突破有限数据处理引擎的瓶颈的低延迟时效性将是需要持续解决的问题实时计算架构Lambda架构数据从底层的数据源开始,经过Kafka、Flume等数据组件进行收集,然后分成两条线进行计算一条线是进入流式计算平台(例如 Storm、Flink或者SparkStreaming),去计算实原创 2021-08-15 11:03:12 · 1073 阅读 · 0 评论