- 博客(9)
- 收藏
- 关注
原创 大数据相关学习-4.Spark
spark 是一个开源的分布式计算引擎,专为大规模数据处理而设计。它提供了高级API,支持Java、Scala、Python 和R语言,能高效地执行批处理、流处理、图处理等多种工作负载。spark 是apache 大数据生态的重要组成部分,主要用于替代h中的 计算模型,在典型的大数据平台中,常见架构为:HDFS(存储) + YARN(调度与资源管理) + Spark(计算引擎)既然spark 主要是代替mapreduce,那就来看看两者的区别下面是同一个wordcount 程序分别用mapreduce 和s
2025-11-21 14:02:42
658
原创 大数据相关学习 3.Yarn
在 MapReduce 应用程序的启动过程中,最重要的就是要把 MapReduce 程序分发到大数据集群的服务器上,在上文介绍的 Hadoop 1 中,这个过程主要是通过 TaskTracker 和 JobTracker 通信来完成。这是 Yarn 的两种主要进程:ResourceManager 进程负责整个集群的资源调度管理,通常部署在独立的服务器上;从生命周期可以看到,每个AM都会去申请资源,当有多个租户都使用一个集群时,不同租户之间怎么实现资源的互不干扰,这是Yarn 资源隔离要解决的首要问题。
2025-10-24 14:54:36
567
原创 大数据相关学习 2.MapReduce
核心是将一个复杂的数据处理任务分解为两个主要阶段:Map(映射) 和 Reduce(归约)。Combiner:是一个可在 Map 端执行的本地 Reduce 操作。Partitioner:决定了 Map 产生的中间键值对如何被分发给不同的 Reduce 任务。小文件问题是HDFS和MapReduce架构中的经典瓶颈,指的是大量远小于 HDFS 块大小的文件对系统造成的负面影响。输出 (Output)。Reduce 阶段。Map 阶段。
2025-10-23 19:52:20
846
原创 大数据相关学习 1.HDFS
当 DN 发生故障没有正常发送心跳信息时,NN 会检测block的副本数是否小于系统设置值,如果小于,则选择一个拥有健康副本的DN作为源节点,并选择一个或几个合适的目标DN来存放新副本,然后下达复制指令。还有一种从侧面说明 HDFS 支持容错的机制,即当从 HDFS 中删除数据时,数据并不是马上就会从 HDFS 中被删除,而是会将这些数据放到“回收站”目录中,随时可以恢复,直到超过了一定的时间才会真正删除这些数据。HDFS是 Hadoop 中存储数据的基石,存储着所有的数据,具有。
2025-10-17 16:58:08
817
原创 Seatunnel学习记录
Apache SeaTunnel 是一个开源的分布式数据集成平台,专注于解决海量数据同步与转换的复杂问题。它具备超高性能和易扩展性,能够支持实时与离线数据处理(流式与批式),广泛应用于企业级数据仓库建设中。
2025-05-16 18:00:16
1641
原创 kafka学习笔记
解压后可以在 /config/server.properties 文件中可以看到Kafka的一些配置:broker.id=0 broker在集群中的唯一=标识的id,log.dirs=/tmp/kafka-logs 定义 Kafka 的数据目录,num.partitions=1 每个 Topic 的分区数。此时消费者订阅了名为 test 的topic,回到 producer 的终端输入消息,在 consumer 的终端看到刚才输入的消息。支持多生产者和多消费者,消息可被多个消费者组同时消费,实现广播模式。
2025-05-15 10:38:49
1430
原创 SpringBoot运行报错:java.lang.NoSuchMethodError: javax.servlet.http.HttpServletRequest.getHttpServletMap
2.jdk的servlet-api包与项目使用的servlet-api干扰(一般不会,标准的jdk不会有这个jar包)Tomcat 10.x ➡️ 支持 Servlet 5.0 (需Spring Boot 3.x)1.springboot内置tomcat与自己安装的tomcat版本不同且项目配置有问题导致。Tomcat 9.x ➡️ 支持 Servlet 4.0。3.tomcat版本与servlet版本不匹配。3.在xml配置使用合适的版本。1.不使用自己的tomcat。2.删除jdk下的jar包。
2025-03-13 15:35:29
731
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅