
大数据
文章平均质量分 96
zp8126
二十年Java相关开发和教学培训的老男孩!
有问题可以微信:zp11481062
展开
-
Kafka 环境搭建之伪分布式集群模式详细教程
Kafka伪集群是一种在单个机器上模拟多节点Kafka集群的配置方式,主要用于开发和测试环境。在伪集群模式下,你可以配置多个Kafka broker实例,它们都连接到同一个Zookeeper实例或者集群,从而模仿分布式环境下的行为,而无需实际部署多台物理或虚拟机。原创 2024-05-08 17:37:14 · 967 阅读 · 0 评论 -
Kafka 环境搭建和使用之单机模式详细教程
但随着 Kafka 的发展,尤其是从 Kafka 2.8 版本开始,引入了 Kafka Raft 协议(也称为 KRaft 模式),这是一个重大的架构变革,它允许 Kafka 在没有依赖外部 ZooKeeper 的情况下运行。: 在生产环境中,Kafka 和 Zookeeper 会部署在不同的服务器上,形成真正的分布式集群。运行控制台生成器客户端,在主题中写入一些事件。:当消费者群组的成员发生变化(例如消费者加入或离开群组)时,Kafka会触发再均衡过程,重新分配分区给群组中的消费者,确保消息的公平消费。原创 2024-05-08 14:58:12 · 1005 阅读 · 0 评论 -
MQ 及 Kafka 相关组件简介
Kafka 是由 Apache 软件基金会开发的一个开源流处理平台,由 Scala 和 Java 编写,Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。原创 2024-05-06 15:06:28 · 1593 阅读 · 1 评论 -
ZooKeeper 环境搭建详细教程之三(真集群)
接下来我们来演示一下配置的详细过程命令,下面以三个虚拟机 node1,node2,node3 为例,安装目录/opt/apps/zookeeper。确保所有服务器上的相关端口(客户端端口 2181,以及集群内部通信端口 2888 和 3888)在防火墙中开放,允许集群间通信。ZooKeeper 集群的投票选举机制是一个很重要的内容,下面来验证是否存在自动选举,保证高可用。思路:先查看哪一台节点是领导者,停止领导者后,剩下的两个跟随者的状态角色,就会发生选举改变。原创 2024-04-28 09:12:22 · 2447 阅读 · 1 评论 -
ZooKeeper 搭建详细步骤之二(伪集群模式)
ZooKeeper 伪集群是指在一个单一的物理或虚拟机环境中模拟出一个由多个 ZooKeeper 节点构成的集群。尽管这些节点实际上运行在同一台机器上,但它们通过配置不同的端口、数据目录和配置文件,以模拟在真实分布式环境下不同服务器上运行的效果。原创 2024-04-27 23:01:36 · 2082 阅读 · 2 评论 -
ZooKeeper 搭建详细步骤之一(单机模式)
ZooKeeper 的搭建模式包括单机模式、集群模式和伪集群模式,分别适用于不同的场景和需求,从简单的单节点测试环境到复杂的多节点高可用生产环境。在实际部署时,应根据系统的可用性要求、数据量、并发负载等因素选择合适的部署模式。原创 2024-04-27 22:55:06 · 3755 阅读 · 1 评论 -
Zookeeper 及 相关概念简介
ZooKeeper 是一个开源的分布式协调服务,由雅虎创建并贡献给 Apache 软件基金会,现已成为 Apache 顶级项目之一。ZooKeeper 主要用于解决分布式应用中常见的数据管理、状态同步、集群协调等问题,为大型分布式系统提供高效且可靠的协同机制。Zookeeper 是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。原创 2024-04-20 12:22:57 · 1219 阅读 · 0 评论 -
Flume 搭建和操作使用的详细教程
* 下载安装包:apache-flume-1.11.0-bin .tar.gz* 上传至 linux 的 /opt/ 目录下* 解压至 /opt/apps(可以自定义目录)* 修改简短名称(方便配置)* 配置环境变量(方便调用)原创 2024-04-20 12:17:30 · 1405 阅读 · 0 评论 -
Flume 入门教程
Flume 是一个分布式、可靠且高可用的数据收集、聚合和传输系统,主要用于高效地处理大规模日志数据。设计之初,它主要服务于日志管理领域,但其灵活性和可扩展性使其能够适应多种数据源和目的地,适用于各类需要实时或批量数据流转的场景。原创 2024-04-12 17:07:16 · 1706 阅读 · 0 评论 -
大数据之 Hive 快速搭建的详细步骤
总之,Hive Beeline 是一个功能强大的命令行工具,用于与 Hive 数据仓库进行交互,无论是进行日常查询、数据处理还是维护任务,都是 Hive 用户不可或缺的工具之一。,用于与 HiveServer2 或其他兼容 Hive JDBC 接口的服务(如 Apache Tez 或 Apache Spark)进行交互,执行 Hive SQL 查询和管理操作。连接成功后,即可在 Beeline 中执行 Hive SQL 查询和 DDL/DML 操作,如创建表、加载数据、查询数据等。原创 2024-04-10 15:49:16 · 665 阅读 · 0 评论 -
Java 操作 Hadoop 集群之 HDFS 的应用案例详解
对应hadoop 命令:-mv 或 hdfs dfs -moveFromLocal 和 hdfs dfs -moveToLocal。移动是删除源文件的,也就是把一个文件从一个位置搬运到另一个位置,不是复制!对应 hadoop 命令:hdfs dfs -touchz /path/to/hdfs/newfile.txt。对应 Hadoop 命令:hdfs dfs -copyFromLocal 本地文件 /目录。文件移动是指从本地移动文件到 hdfs 服务器或从 hdfs 移动文件到本地。原创 2024-04-01 22:59:46 · 1658 阅读 · 2 评论 -
大数据之 MapReduce 相关的 Java API 应用
Mapper: 定义了映射阶段的接口,程序员需要实现这个接口来处理输入数据并生成中间键值对。// 实现map方法// ... 处理逻辑 ...2.Reducer: 定义了归约阶段的接口,程序员需要实现这个接口来聚合Mapper产生的中间键值对。// 实现reduce方法// ... 聚合逻辑 ...Job: 代表一个MapReduce作业,用来设置作业的各种属性,包括输入输出路径、mapper和reducer类、job配置等,并提交作业到集群运行。原创 2024-04-01 22:51:01 · 1469 阅读 · 0 评论 -
YARN集群 和 MapReduce 原理及应用
MapReduce 是一种分布式编程模型,最初由 Google 提出并在学术论文中公开描述,后来被广泛应用于大规模数据处理,尤其是 Apache Hadoop 等开源项目中实现了这一模型。MapReduce 的核心思想是将复杂的大量数据处理任务分解成两个主要阶段:Map(映射)阶段和 Reduce(归约)阶段。Map(映射)阶段将输入数据集划分为独立的块。对每个数据块执行用户自定义的 map 函数,该函数将原始数据转换为一系列中间键值对。输出的结果是中间形式的键值对集合,这些键值对会被排序并分区。原创 2024-03-30 18:06:43 · 1516 阅读 · 0 评论 -
Linux 系统 CentOS7 上搭建 Hadoop HDFS集群详细步骤
整体思路:先在一个节点上安装、配置,然后再克隆出多个节点,修改 IP ,免密,主机名等提前规划:需要三个节点,主机名分别命名:node1、node2、node3在下面对 node1 配置时,先假设 node2 和 node3 是存在的**注意:**整个搭建过程,除了1和2 步,其他操作都使用普通用户权限。原创 2024-03-28 09:31:36 · 1764 阅读 · 0 评论