2401_8554978-优快云博客

原创 MapReduce的分区原理把不同数据输出到不同文件

假设我们需要统计不同省份用户的购买行为。我们可以使用 Partitioner 按照省份信息对数据进行分区，这样相同省份的数据会被分配到同一个 Reducer 中进行汇总。造成这些问题的原因在于分区策略直接影响了数据分布和后续处理步骤的效率，因此需要精心设计以避免潜在的问题。进入 Hadoop Shell 可以直接在安装了 Hadoop 的机器上执行。例如，要查看当前集群的状态，可以使用。

2025-06-18 00:14:40 788

假设我们需要计算日志文件中不同IP地址访问次数。使用 MapReduce，我们可以编写一个简单的程序，Mapper 解析每条日志记录提取出 IP 地址作为键，值设为1；Reducer 则负责累加相同 IP 地址对应的计数值。造成这些优缺点的原因在于 MapReduce 设计初衷是为了处理大规模批处理任务，而非低延迟查询或交互式分析。使用场景：当需要执行自定义的 MapReduce 应用时。是运行 MapReduce 程序的主要命令。

2025-06-18 00:04:05 762

原创 Flum的组件和原理。以及配置和基础命令

通常不需要“进入”Flume，而是直接通过命令行工具来启动和管理 Flume Agent。如果需要调试或查看日志，可以通过查看 Flume 的日志文件来实现。Apache Flume 是一个高可靠、高性能的服务，用于收集、聚合和移动大量日志数据。它的架构设计灵活且可扩展，能够适应各种不同的数据源和目的地。假设我们有一个电商网站的日志分析需求，需要将服务器上的访问日志实时收集并存入 HDFS 中进行后续分析。

2025-06-13 13:12:12 1019

原创 Zookeeper的组件和原理以及常用命令和配置

Apache Zookeeper 是一个开源的分布式协调服务，主要用于管理大型分布式系统中的配置信息、命名服务、提供分布式同步以及组服务等。它为分布式应用提供了高可用性和一致性保障。假设有一个电商平台需要管理多个微服务之间的服务发现和服务配置管理。可以使用 Zookeeper 来存储服务注册信息和服务配置参数。为了保证数据的一致性和容错能力，Zookeeper 使用了事务日志和定期快照。

2025-06-13 11:36:30 1064 1

原创 Flink是如何按照数据生产的时间顺序来处理数据的？

事件时间指的是数据项在其源头产生时的。

2025-06-13 11:30:43 393

原创 Flink的组件有哪些？

核心差异数据模型Redis：内存键值存储，支持多种数据结构（字符串、哈希、列表、集合等）。MySQL：关系型数据库，基于表结构和SQL语言。持久化Redis：可选的持久化机制（RDB快照、AOF日志），主要为内存数据库。MySQL：默认全持久化，所有数据变更均写入磁盘。性能Redis：极高读写速度，因数据存于内存中。MySQL：相对较慢，涉及磁盘I/O，但适合复杂查询。用途Redis：缓存、消息队列、实时分析等高响应需求场景。MySQL。

2025-06-11 22:18:49 776

原创 HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式

随着数据量的增长，单一的NameNode成为了HDFS的瓶颈，因为它需要管理整个文件系统的命名空间和所有文件块的位置信息。为了克服这个限制，Hadoop引入了Federation机制，允许一个集群中有多个NameNode/NameSpace，每个NameNode管理一部分文件系统，从而分散负载。优点提高扩展性：通过增加NameNode的数量来支持更多的文件和更大的文件系统。提升性能：减少单个NameNode的压力，提高读写速度。

2025-06-11 20:50:21 587

原创 HA架构的组成和原理

HA架构通过引入备用节点、共享日志、故障探测与自动切换机制，有效解决了HDFS NameNode和YARN ResourceManager的单点故障问题，显著提高了系统的可靠性和稳定性。虽然它带来了更高的复杂性和成本，但在对高可用性有严格要求的大数据平台中，HA架构是不可或缺的设计。下期讲解HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略ResourceManager的共享存储具体实现方式。

2025-06-11 17:17:25 2009

原创 HDFS与YARN是如何协同工作的？

HDFS：专注于数据的分布式存储，能够高效地存储大量数据，并确保数据的高可用性和容错性。YARN：作为Hadoop的资源管理和任务调度层，它负责分配集群资源（如CPU、内存等），并调度运行在这些资源上的应用（比如MapReduce作业）。两者通过分工合作，实现了数据存储和计算的分离，使得Hadoop可以灵活扩展以应对不断增长的数据量和计算需求。谁负责计算？

2025-06-11 15:18:33 843

原创浅聊HDFS 包括HDFS各个组件的工作原理

HDFS 是一种专为大规模数据存储与处理而设计的分布式文件系统。它通过将数据分块、多副本存储、分布式计算相结合，解决了传统文件系统无法应对的大数据挑战。虽然它在实时性和小文件处理上有一定局限，但在离线数据分析、日志处理、数据仓库等领域具有广泛的应用价值。

2025-06-11 12:06:06 875

原创浅聊YARN是什么？如何工作的？

YARN就像班级的"智能任务分配系统"，班主任管大局，小组长管执行，值日组长负责具体任务，大家一起高效完成大扫除（大数据作业）！班主任（RM）从全班选一个同学当"扫地组长"（AM），给他一张纸条（Container）写着："你负责扫地任务"。扫地（MapReduce）、擦窗（Spark）、整理图书（Flink）不同任务。""小强倒完垃圾了！扫地组长（AM）告诉班主任（RM）："任务完成！劳动委员（用户）告诉班主任（RM）："今天要大扫除！班主任（RM）问各组小组长（NM）："你们组谁有空？

2025-06-07 16:05:24 1686

原创 Flum3 多节点架构

多个Agent位于不同的服务器之上，每个Agent的Sink将数据输出到另一台服务器上的同类型的Souce上进行汇总，最终将数据存入HDFS。例如一个大型网站，为了实现负载均衡功能，往往需要部署在多台服务器上，这个时候可以在每台网站所在的服务器上安装一个Flume，每个Flume启动一个Agent对本地日志进行收集，然后分别将每个Agent收集到的日志数据发送到同一台装有Flume的服务器进行汇总，最终将汇总的日志数据写入本地HDFS文件系统中。为了能使数据流跨越多个Agent，，并且Sink需要。

2025-06-07 12:45:52 320

原创 Hadoop是什么？

Hadoop 虽然它不适合实时计算，但在。

2025-06-07 12:32:57 654

原创 Flume 2 组件介绍

Source用于收集外部数据源中的数据（event，例如：Web系统产生的日志），但是必须一Source可以识别的格式向Source发送数据。Channel用于存储Source收集到的数据，这些数据一旦被Sink消费就会被删除。Sink用于消费Channel中的数据，然后把它们持久化到外部的存储系统中（如hdfs、hive、hbase）Flume可以有多个Agent，但是每个Agent都必须要有指定的三个组件。

2025-06-07 11:27:53 251

原创浅聊Flume1

分布式的日志收集系统：将大量的不同数据源的数据收集、聚合后迁移到一个集中的数据中心进行存储。·还可以用于传输大量数据，如网络流量数据、社交媒体生产的数据等等。

2025-06-07 11:00:58 170

原创关系型数据库的瓶颈以及非关系数据库的分类

原子性（Atomicity）：保证每个事务都被视为一个不可分割的工作单元，要么全部执行，要么完全不执行。一致性（Consistency）：确保事务只能将数据库从一个一致状态转换到另一个一致状态，即事务执行前后数据库的完整性约束没有被破坏。什么是数据库的完整性约束？隔离性（Isolation）：多个事务并发执行时，每个事务的操作不会受到其他事务的影响，就像它们是串行执行的一样。持久性（Durability）一旦事务提交成功，即使发生系统故障，其结果也不会丢失。选择数据库时需考虑应用的具体需求。

2025-06-07 10:08:46 776

原创浅聊kafka

Apache Kafka 提供了一个高效、可靠的大规模实时数据流处理解决方案。它不仅支持高吞吐量的数据传输，还能保证消息传递的顺序性和可靠性。通过其独特的主题-分区机制，Kafka能够实现高效的并行处理；而在实际应用中，无论是日志聚合、流式处理还是构建事件驱动的微服务架构，Kafka都展现出了极大的灵活性和适应性。尽管Kafka本身不直接提供日志格式转换等功能，但通过与其他组件和技术的集成，它可以轻松应对各种复杂的业务需求。

2025-06-07 00:06:25 930

原创浅聊flink

Flink 的流执行模型是一种以连续不断的数据流为输入基础的处理方式。它不像传统的批处理那样等待所有数据就绪才开始处理，而是边接收边处理。流处理架构是一种专门用于处理连续不断数据流的系统结构。数据是动态的、持续变化的；系统必须能够实时地消费、转换和输出这些数据；强调状态管理、容错机制和低延迟响应。什么是状态管理？项目内容检查点本质对当前状态的快照、可以设置增量检查。目的故障恢复、Exactly-once 语义保障是什么？是否占用大空间取决于状态大小和检查点策略，可通过优化控制窗口是对。

2025-06-06 23:37:04 719

原创星形模型与ER模型的区别

ER模型是一种用于数据库设计的概念性数据模型，它通过实体、属性和关系来描述现实世界的数据结构。代表现实世界中的对象或概念，如“客户”、“订单”等。属性（Attribute）：描述实体的特征，如客户的“姓名”、“地址”等。关系（Relationship）：表示不同实体之间的联系，如“客户”与“订单”之间的关系。星形模型是一种专门用于数据仓库设计的维度建模方法，由一个中心的事实表（Fact Table）和多个围绕它的维度表（Dimension Tables）组成。事实表：存储度量值。

2025-06-06 20:11:39 956

原创 Inmon与Kimball两种数据仓库设计方法-以及三种范式的要求。

优点数据一致性高，适合长期规划，适用于大型企业。缺点：建设周期长，变更成本高，灵活性较低。传递依赖会导致数据冗余和更新异常（如插入异常、删除异常和修改异常）。为了确保数据的一致性和完整性，我们需要将关系模式分解为更小的部分，以消除这些传递依赖。传递依赖是指非主键字段之间的间接依赖关系。它会导致数据冗余和更新异常。通过将关系模式分解为更小的部分，可以消除传递依赖，从而达到第三范式的要求。这种规范化过程有助于提高数据库的性能和可维护性。在有复合主键。

2025-06-06 19:48:11 1963 1

原创介绍Inmon数据仓库设计方法。带具体项目

关键点说明Inmon 是自上而下设计先建统一的数据仓库，再做集市统一标准很重要但不能代替数据清洗实际数据很复杂来源多样、格式各异、存在错误清洗是必要步骤即使有了标准，仍需对数据做一致性处理类比学校成绩单制定统一评分标准 ≠ 成绩可以直接用，还需要核对、纠错、归档·确保一致性：如果某个老师写的是90分，教务会把他改成优秀。·特点：·前期工作量比较大·所有数据口径必须统一·数据整齐划一，方便分析Kimball。

2025-06-06 19:01:58 498

原创数据抽取的要求与分类

注意：在增量日志表中被抽取后的数据要及时删除或者标记，避免下一次进行增量抽取的时候重复抽取旧数据。·Push：源系统按照双方约定的数据格式，主动把符合要求的数据抽取出来，进而形成接口数据或者数据视图（也就是你想要的数据表格）供ETL系统使用。（3）：全表对比抽取：将数据仓库中原有的表格与数据源的表格进行对比，抽取不同的部分。·业务人员和设计人员共同讨论哪些数据是有价值的，哪些数据是可以忽略不计的，然后制作出最佳的数据抽取策略。·缺点：对源系统或其他开发系统产生了很大的依赖性，且对源系统的性能要求比较高。

2025-06-04 21:24:10 313

原创分布式ETL的分类

MapReduce提供了一种高度抽象的数据处理模型，允许用户通过定义两个简单的函数——Map函数和Reduce函数，来进行大规模数据集的并行处理。紧耦合指的是各个组件之间的依赖性非常高，即一个组件的变化会直接影响到另一个组件的工作，例如直接调用对方的内部方法或属性。而在松耦合架构下，各个组件变成了独立的服务接口，它们通过公开的标准接口进行通信，彼此之间的依赖性大大降低。此外，由于服务间采用的是标准化接口，因此更容易实现跨平台的数据集成和共享，提高了系统的扩展性和兼容性。将各个组件变成了独立的服务接口。

2025-06-04 21:07:10 413

2401_85549783的博客