自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 大数据相关学习-4.Spark

spark 是一个开源的分布式计算引擎,专为大规模数据处理而设计。它提供了高级API,支持Java、Scala、Python 和R语言,能高效地执行批处理、流处理、图处理等多种工作负载。spark 是apache 大数据生态的重要组成部分,主要用于替代h中的 计算模型,在典型的大数据平台中,常见架构为:HDFS(存储) + YARN(调度与资源管理) + Spark(计算引擎)既然spark 主要是代替mapreduce,那就来看看两者的区别下面是同一个wordcount 程序分别用mapreduce 和s

2025-11-21 14:02:42 658

原创 大数据相关学习-特辑.安装hive

环境介绍:mac m1、centos7、Hadoop3.4。

2025-10-28 20:15:21 323

原创 大数据相关学习 3.Yarn

在 MapReduce 应用程序的启动过程中,最重要的就是要把 MapReduce 程序分发到大数据集群的服务器上,在上文介绍的 Hadoop 1 中,这个过程主要是通过 TaskTracker 和 JobTracker 通信来完成。这是 Yarn 的两种主要进程:ResourceManager 进程负责整个集群的资源调度管理,通常部署在独立的服务器上;从生命周期可以看到,每个AM都会去申请资源,当有多个租户都使用一个集群时,不同租户之间怎么实现资源的互不干扰,这是Yarn 资源隔离要解决的首要问题。

2025-10-24 14:54:36 567

原创 大数据相关学习 2.MapReduce

核心是将一个复杂的数据处理任务分解为两个主要阶段:​​Map(映射)​​ 和 ​​Reduce(归约)​​。​​Combiner​​:是一个可在 Map 端执行的本地 Reduce 操作。​​Partitioner​​:决定了 Map 产生的中间键值对如何被分发给不同的 Reduce 任务。小文件问题是HDFS和MapReduce架构中的经典瓶颈,指的是大量远小于 HDFS 块大小的文件对系统造成的负面影响。​​输出 (Output)​​。​​Reduce 阶段​​。​​Map 阶段​​。

2025-10-23 19:52:20 846

原创 大数据相关学习-特辑.部署Hadoop集群

环境介绍:Mac m1、PD26、centos7、openjdk1.8。

2025-10-23 18:02:08 1069

原创 大数据相关学习 1.HDFS

当 DN 发生故障没有正常发送心跳信息时,NN 会检测block的副本数是否小于系统设置值,如果小于,则选择一个拥有健康副本的DN作为​​源节点​​,并选择一个或几个合适的目标DN来存放新副本,然后下达复制指令。还有一种从侧面说明 HDFS 支持容错的机制,即当从 HDFS 中删除数据时,数据并不是马上就会从 HDFS 中被删除,而是会将这些数据放到“回收站”目录中,随时可以恢复,直到超过了一定的时间才会真正删除这些数据。HDFS是 Hadoop 中存储数据的基石,存储着所有的数据,具有。

2025-10-17 16:58:08 817

原创 Seatunnel学习记录

Apache SeaTunnel 是一个开源的分布式数据集成平台,专注于解决海量数据同步与转换的复杂问题。它具备超高性能和易扩展性,能够支持实时与离线数据处理(流式与批式),广泛应用于企业级数据仓库建设中。

2025-05-16 18:00:16 1641

原创 kafka学习笔记

解压后可以在 /config/server.properties 文件中可以看到Kafka的一些配置:broker.id=0 broker在集群中的唯一=标识的id,log.dirs=/tmp/kafka-logs 定义 Kafka 的数据目录,num.partitions=1 每个 Topic 的分区数。此时消费者订阅了名为 test 的topic,回到 producer 的终端输入消息,在 consumer 的终端看到刚才输入的消息。支持多生产者和多消费者,消息可被多个消费者组同时消费,实现广播模式。

2025-05-15 10:38:49 1430

原创 SpringBoot运行报错:java.lang.NoSuchMethodError: javax.servlet.http.HttpServletRequest.getHttpServletMap

2.jdk的servlet-api包与项目使用的servlet-api干扰(一般不会,标准的jdk不会有这个jar包)Tomcat 10.x ➡️ 支持 Servlet 5.0 (需Spring Boot 3.x)1.springboot内置tomcat与自己安装的tomcat版本不同且项目配置有问题导致。Tomcat 9.x ➡️ 支持 Servlet 4.0。3.tomcat版本与servlet版本不匹配。3.在xml配置使用合适的版本。1.不使用自己的tomcat。2.删除jdk下的jar包。

2025-03-13 15:35:29 731

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除