
大数据组件
文章平均质量分 96
Icedzzz
这个作者很懒,什么都没留下…
展开
-
实时流计算
总结自——吃透实时流计算1. 流计算通用架构流计算系统通常包含五个部分:数据采集、数据传输、数据处理、数据存储和数据展现数据采集模块数据采集,就是从各种数据源收集数据的过程,比如浏览器、手机、工业传感器、日志代理等。怎样开发一个数据采集服务呢?最简单的方式,就是用 Spring Boot 开发一个 REST 服务,这样,我们就可以用 HTTP 请求的方式,从浏览器、手机等终端设备,将数据发送到数据采集服务器。设计采集模块的五个难点:第一点是吞吐量。我们一般用 TPS(Transactions转载 2021-06-25 20:28:44 · 2232 阅读 · 0 评论 -
HDFS深入学习总结
https://zhuanlan.zhihu.com/p/265980039当数据集的大小超出一台独立的服务服务器的存储能力时,应该怎么存储数据?为什么需要HDFS?答案就是对数据进行分区(partition)并将其存储到多个服务器上面,那这必然涉及到跨网络存储和管理,也势必引入网络编程的复杂性,因此,分布式的文件管理系统比普通的架设在单个服务器上的存储系统更加的复杂。Hadoop 生态圈中有一个组件叫做HDFS(Hadoop Distributed Filesystem) 就是专为了解决这个问题的分布原创 2021-05-29 17:30:47 · 438 阅读 · 3 评论 -
HBase总结
https://segmentfault.com/a/1190000019959411尚硅谷HBase视频HBase架构1.数据模型Name Space命名空间,类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。 HBase有两个自带的命名空间,分别是 hbase 和 default, hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。Region:类似于关系型数据库的表概念。HBase 表(Table)根据 rowkey 的范围被原创 2021-05-25 20:51:52 · 1329 阅读 · 7 评论 -
ZooKeeper总结——了解级别
1. 分布式理论集中式与分布式集中式系统:所谓的集中式系统就是指由一台或多台主计算机组成中心节点,数据集中存储于这个中心节点中,并且整个系统的所有业务单元都集中部署在这个中心节点上,系统的所有功能均由其集中处理。分布式系统 :是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。分布式意味着可以采用更多的普通计算机(相对于昂贵的大型机)组成分布式集群对外提供服务。**单点故障:**单个点发生故障的时候会波及到整个系统或者网络,从而导致整个系统或者网络的瘫原创 2021-05-20 21:32:06 · 358 阅读 · 1 评论 -
Kafka问题补充
文章目录Kafka于Zookeeper的关系Kafka如何保证数据可靠性?复制机制broker配置如何保证生产者的可靠性?如何保证消费者的可靠性?物理存储分区分配文件管理Kafa的事务Kafka于Zookeeper的关系**Kafka 使用 Zookeeper 来维护集群成员的信息。**每个 broker 都有一个唯一标识符,这个标识符可以在配置文件里指定,也可以自动生成。在 broker 启动的时候,它通过创建临时节点把自己的 ID 注册到 Zookeeper。 Kafka 组件订阅 Zookeep原创 2021-05-04 14:20:02 · 315 阅读 · 0 评论 -
Kafka:消费者详解
1. Kafka消费者概念消费者: 负责订阅Kafka的topic,并从订阅的topic中拉取消息并验证,最后将他们保存起来。消费者组: 如果只使用一个消费者处理消息,那应用程序会远跟不上消息生产的速度。因此引入消费者组这个概念,对消费者进行横向伸缩,当消息发布到topic后,会被投递给订阅它的每个消费者组中的一个消费者。注意:一个消费者组里面的消费者订阅的是同一个主题,每个消费者接收主题的一部分分区的消息。消费组是逻辑上的概念,它将旗下消费者归为一类,每个消费者只属于一个消费组。消费者不是逻原创 2020-08-20 19:55:18 · 1810 阅读 · 0 评论 -
Kafka:生产者详解
生成者概述生成者是负责向Kafka发送消息的应用程序,通常应用于:记录用户的活动、物联网硬件数据的写入、保存日志消息和缓存即将写入到数据库的数据等。生成者向Kafka发送消息的主要步骤如下:创建一个ProducerRecord对象,包含目标主题、内容以及键和分区信息。在发送ProducerRecord对象时,生成者要先把键和值对象序列化成字节数组。下一步,数据被发送分区器,如果没有指定分区,那么分区器就会根据ProducerRecord对象的键来选择一个分区。然后该数据会被发送到对应主题分区的批次原创 2020-08-12 14:16:27 · 870 阅读 · 0 评论