橘柚橙柑-优快云博客

原创大数据相关学习-4.Spark

spark 是一个开源的分布式计算引擎，专为大规模数据处理而设计。它提供了高级API，支持Java、Scala、Python 和R语言，能高效地执行批处理、流处理、图处理等多种工作负载。spark 是apache 大数据生态的重要组成部分，主要用于替代h中的计算模型，在典型的大数据平台中，常见架构为：HDFS（存储） + YARN（调度与资源管理） + Spark（计算引擎）既然spark 主要是代替mapreduce，那就来看看两者的区别下面是同一个wordcount 程序分别用mapreduce 和s

2025-11-21 14:02:42 658

原创大数据相关学习-特辑.安装hive

环境介绍：mac m1、centos7、Hadoop3.4。

2025-10-28 20:15:21 323

原创大数据相关学习 3.Yarn

在 MapReduce 应用程序的启动过程中，最重要的就是要把 MapReduce 程序分发到大数据集群的服务器上，在上文介绍的 Hadoop 1 中，这个过程主要是通过 TaskTracker 和 JobTracker 通信来完成。这是 Yarn 的两种主要进程：ResourceManager 进程负责整个集群的资源调度管理，通常部署在独立的服务器上；从生命周期可以看到，每个AM都会去申请资源，当有多个租户都使用一个集群时，不同租户之间怎么实现资源的互不干扰，这是Yarn 资源隔离要解决的首要问题。

2025-10-24 14:54:36 567

原创大数据相关学习 2.MapReduce

核心是将一个复杂的数据处理任务分解为两个主要阶段：Map（映射）和 Reduce（归约）。Combiner：是一个可在 Map 端执行的本地 Reduce 操作。Partitioner：决定了 Map 产生的中间键值对如何被分发给不同的 Reduce 任务。小文件问题是HDFS和MapReduce架构中的经典瓶颈，指的是大量远小于 HDFS 块大小的文件对系统造成的负面影响。输出 (Output)。Reduce 阶段。Map 阶段。

2025-10-23 19:52:20 846

原创大数据相关学习-特辑.部署Hadoop集群

环境介绍：Mac m1、PD26、centos7、openjdk1.8。

2025-10-23 18:02:08 1069

原创大数据相关学习 1.HDFS

当 DN 发生故障没有正常发送心跳信息时，NN 会检测block的副本数是否小于系统设置值，如果小于，则选择一个拥有健康副本的DN作为源节点，并选择一个或几个合适的目标DN来存放新副本，然后下达复制指令。还有一种从侧面说明 HDFS 支持容错的机制，即当从 HDFS 中删除数据时，数据并不是马上就会从 HDFS 中被删除，而是会将这些数据放到“回收站”目录中，随时可以恢复，直到超过了一定的时间才会真正删除这些数据。HDFS是 Hadoop 中存储数据的基石，存储着所有的数据，具有。

2025-10-17 16:58:08 817

原创 Seatunnel学习记录

Apache SeaTunnel 是一个开源的分布式数据集成平台，专注于解决海量数据同步与转换的复杂问题。它具备超高性能和易扩展性，能够支持实时与离线数据处理（流式与批式），广泛应用于企业级数据仓库建设中。

2025-05-16 18:00:16 1641

原创 kafka学习笔记

解压后可以在 /config/server.properties 文件中可以看到Kafka的一些配置：broker.id=0 broker在集群中的唯一=标识的id，log.dirs=/tmp/kafka-logs 定义 Kafka 的数据目录，num.partitions=1 每个 Topic 的分区数。此时消费者订阅了名为 test 的topic，回到 producer 的终端输入消息，在 consumer 的终端看到刚才输入的消息。支持多生产者和多消费者，消息可被多个消费者组同时消费，实现广播模式。

2025-05-15 10:38:49 1430

原创 SpringBoot运行报错：java.lang.NoSuchMethodError: javax.servlet.http.HttpServletRequest.getHttpServletMap

2.jdk的servlet-api包与项目使用的servlet-api干扰（一般不会，标准的jdk不会有这个jar包）Tomcat 10.x ➡️ 支持 Servlet 5.0 (需Spring Boot 3.x)1.springboot内置tomcat与自己安装的tomcat版本不同且项目配置有问题导致。Tomcat 9.x ➡️ 支持 Servlet 4.0。3.tomcat版本与servlet版本不匹配。3.在xml配置使用合适的版本。1.不使用自己的tomcat。2.删除jdk下的jar包。

2025-03-13 15:35:29 731

weixin_63012564的博客