自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 GPT5.2回答大数据开发工程师应该具备的能力

下面是一份“面向大数据开发工程师”的 Java 学习笔记(更偏工程落地 + 性能 + JVM + 并发 + 生态集成),学完后基本能覆盖你在 Hadoop/Spark/Flink/Kafka/ES/OLAP 等场景里写生产级 Java 的核心需求。。

2025-12-12 16:46:02 958

原创 Apache Doris 底层原理深度学习笔记(持续更新)

【代码】Apache Doris 底层原理深度学习笔记(持续更新)

2025-11-24 11:24:39 806

原创 Kafka 详细学习笔记(持续更新)

Kafka简介与核心概念 Kafka是一个高性能分布式流处理平台,具备高吞吐量、可扩展性、持久化和容错性等特性。其核心概念包括生产者(Producer)、消费者(Consumer)、Broker(代理服务器)、Topic(逻辑分类单位)、Partition(分区)、Offset(偏移量)和副本(Replica)。Kafka通过分区副本机制确保数据可靠性,消费者组(Consumer Group)实现灵活的消息处理模式。存储机制采用日志结构和零拷贝技术,优化性能。生产者通过批量发送和分区策略提升效率,支持三种消

2025-10-29 09:41:15 709

原创 Flink 端口配置教程 - 解决与 Spark 的端口冲突

解决Spark与Flink默认端口冲突问题,建议修改Flink的WebUI端口为8082。具体步骤包括:停止Flink集群,编辑flink-conf.yaml文件修改rest.port配置,重启服务后验证端口占用情况。同时提供了端口冲突检测方法和多环境端口规划建议。该方案可确保Spark和Flink同时运行时不冲突,通过简单配置调整即可实现服务共存。

2025-10-27 14:25:44 718

原创 Flink 本地安装与运行教程

本文介绍了在Java11、Scala2.12和Spark3.5.0环境下安装配置Flink1.17.2的完整流程。主要内容包括:环境准备、下载安装Flink、配置环境变量、修改端口避免冲突、启动集群、运行测试示例、IDEA开发配置、常用命令以及常见问题排查。特别提供了国内镜像源下载地址,详细说明了端口分配方案,并确保与Spark环境兼容。最后总结了各组件版本兼容性,推荐使用Flink1.17.2作为稳定版本。全流程涵盖从安装部署到应用开发的各个环节,适合大数据开发者参考。

2025-10-27 14:19:19 801

原创 Flink 学习笔记

本文系统介绍了Apache Flink流处理框架的核心概念与使用方法。主要内容包括:1)Flink基础架构与部署模式(Standalone/Yarn/K8s);2)DataStream API编程模型及常用算子(map/filter/keyBy等);3)时间语义(EventTime/ProcessingTime)与Watermark机制;4)窗口计算(滚动/滑动/会话窗口);5)状态管理(Operator/Keyed State)与容错机制(Checkpoint/Savepoint);6)高级特性(CEP/

2025-10-27 13:33:41 935

原创 数据仓库工具箱 (持续更新)

维度模型的基本结构,由一个事实表和多个维度表组成,形似星状。

2025-10-26 16:50:16 1236

原创 Scala 从入门到精通学习笔记

本文全面介绍了Scala编程语言的核心知识点,内容涵盖从基础语法到高级特性的完整学习路径。作为一门融合面向对象与函数式编程的多范式语言,Scala具有类型安全、表达力强、JVM互操作等显著特点。文档系统讲解了变量声明、流程控制、集合操作、面向对象编程、模式匹配、高阶函数、隐式转换等核心概念,并提供了大量代码示例。特别强调了函数式编程的最佳实践,如优先使用不可变变量、Option类型处理空值、链式调用函数等。最后给出了学习路线建议和实用资源,适合从入门到进阶的Scala开发者系统学习。

2025-10-26 16:30:08 958

原创 Spark 从入门到精通学习教程

全网最详细的spark学习教程,spark涉及的特性,算子都有详细的code

2025-10-24 14:48:06 716

原创 Spark 集群搭建与任务提交完整指南

文章摘要:本文详细记录了在macOS环境下配置和运行Spark应用的全过程,包括环境配置(Java11、Scala2.12.18、Spark3.5.0)、解决的关键问题(包结构识别、集群启动权限、Lambda序列化错误等),以及完整的开发工作流程。重点介绍了本地开发与集群部署两种模式的实现方法,提供了Maven配置示例、Spark应用代码模板和spark-submit提交命令。文末总结了最佳实践和常见问题排查方法,为Spark开发者提供了全面的参考指南。

2025-10-24 10:57:09 931

原创 IDEA 中配置 Scala 和连接本地 Spark 集群

【代码】IDEA 中配置 Scala 和连接本地 Spark 集群。

2025-10-23 11:13:03 467

原创 Apache Paimon 完整学习教程

摘要: Apache Paimon是一个流式数据湖存储系统,支持流批一体化处理。其Partial-Update(部分更新)功能允许字段级增量更新,特点是NULL值不会覆盖已有数据。文章详细解析了Partial-Update的工作原理、应用场景(如CDC数据同步、用户画像构建)及配置方法,并介绍了Paimon的LSMTree存储架构、Snapshot机制和Flink集成方案。最后提供了性能优化建议和常见问题解决方案,包括表设计优化、查询优化和NULL值处理等。该技术适用于需要数据逐步完善的场景,是多源数据整合

2025-10-23 10:03:03 602

原创 Mac 安装 Hadoop 大数据框架完整教程

mac电脑安装hadoop大数据框架,包含spark,flink安装教程

2025-10-16 16:34:25 679

原创 【爬虫】常见的反爬类型&解决方法

反爬虫手段简单概括及相应的解决方法

2024-04-29 15:12:27 1792 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除