- 博客(36)
- 收藏
- 关注
原创 炸裂函数explode
在 Apache Hive 中,"炸裂函数"通常指的是将复杂数据类型(如数组或映射)拆分成多行的函数。Hive 提供了几个内置函数来实现这种操作,其中最常用的是explode函数。
2025-03-01 15:45:57
227
原创 RDD 行动算子
在 Apache Spark 中,RDD(弹性分布式数据集)是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。
2025-02-28 11:55:58
329
原创 二十三种设计模式详解
二十三种设计模式是软件开发中用于解决常见问题的经典解决方案,它们由 Erich Gamma 等四位作者在《设计模式:可复用面向对象软件的基础》一书中提出。和。
2025-02-26 22:37:39
1046
原创 Spring 创建对象的流程
想象一下,你是一个老板,要开一家公司。公司里有很多员工(对象),每个员工都有自己的职责和依赖关系(比如,程序员需要电脑,销售需要电话等)。传统方式是你自己手动去安排每个员工的工作和工具,但在 Spring 的世界里,有一个超级助手(Spring 容器)帮你搞定这一切。你需要告诉 Spring 助手,你的公司需要哪些员工,以及他们的职责和依赖关系。当公司关门时,助手会通知所有员工收拾东西离开(调用销毁方法),比如程序员要把电脑还回去。你可以随时调用这些员工来完成公司的任务。(用户服务),它需要一个。
2025-02-26 19:00:32
646
原创 Java SE与Java EE
Java SE 是 Java 平台的核心,提供了 Java 语言的基础功能。它包含了 Java 开发工具包(JDK),其中有 Java 编译器(javac)、Java 虚拟机(JVM)和 Java 运行时环境(JRE)。Java SE 主要用于开发桌面应用程序、服务器端应用以及嵌入式系统。Java EE 是建立在 Java SE 之上的企业级开发平台,专注于开发大规模、分布式、多层的企业应用程序。它提供了丰富的 API 和框架,用于简化企业级应用的开发,如 Web 服务、数据库连接、事务管理等。
2025-02-26 18:43:22
548
原创 深度优先搜索(DFS)在 Spark 中的应用与实现
深度优先搜索(Depth-First Search, DFS)是一种经典的图遍历算法,广泛应用于图论、路径搜索、连通性检测等场景。在 Spark 中,DFS 可以用于处理图数据(如社交网络、推荐系统)或解决依赖关系问题(如 RDD 的血缘关系分析)。DFS 是图遍历与依赖关系分析的核心算法,在 Spark 中广泛应用于图计算与 RDD 血缘关系分析。通过结合 Spark 的并行计算能力与优化策略(如剪枝、缓存),可以显著提升 DFS 的性能。
2025-02-24 22:22:34
1086
原创 包装类缓存对象
包装类的缓存机制是 Java 中一种重要的性能优化手段,适用于常用的小范围值。了解缓存范围,避免不必要的对象创建。在比较包装类对象时,使用equals()方法而不是==。可以通过 JVM 参数调整Integer的缓存范围。如果需要,可以参考包装类的缓存机制实现自定义缓存。
2025-02-24 15:12:38
544
原创 DStream(Discretized Stream)
在Spark中,DStream(Discretized Stream)是Spark Streaming提供的一个核心抽象,用于表示连续的数据流。
2025-02-22 12:37:16
587
原创 scala中为什么能用常量的地方就不用变量
Scala 鼓励使用val安全:减少并发问题和隐蔽错误。简洁:代码更易推理和维护。函数式风格:与不可变数据和高阶函数无缝结合。通过优先使用val,开发者能更自然地编写符合函数式思维、健壮且高效的代码。
2025-02-18 20:48:25
527
原创 Spark累加器
定义:在Spark中,累加器(Accumulator)是一种只能被添加的分布式变量,用于将运行在集群节点上的任务中的结果累积到驱动程序(Driver Program)中。用途:累加器主要用于支持只读的聚合操作,比如计数或求和等。它是Spark中一种非常有用的共享变量,尤其在执行计算时需要对某个变量进行累加或求和的场景。
2025-02-18 11:27:38
572
原创 拉链表介绍
是一种在数据仓库中用于跟踪维度数据历史变化的存储技术。它通过记录数据的生命周期(开始时间和结束时间)来保留历史状态,同时避免全量存储冗余数据。
2025-02-17 22:10:30
449
原创 watermark解释
Watermark 是 Flink 事件时间处理的基石,通过跟踪事件时间进度,平衡计算结果的准确性和延迟。合理设置 Watermark 策略(如延迟时间)是优化流处理作业的关键。
2025-02-17 18:58:17
993
原创 有向无环图(DAG)
对每个顶点 vv,遍历其所有入边 u→vu→v,更新 vv 的最长路径值为 max(dist[v],dist[u]+w(u,v))max(dist[v],dist[u]+w(u,v))。其核心算法(如拓扑排序、环检测)在工程中广泛应用,理解DAG的特性是解决复杂依赖问题的关键。:DAG的最短路径可通过拓扑排序在O(V+E)O(V+E)时间内解决,最长路径(关键路径)常用于项目管理。:边(从顶点 uu 到 vv)有明确方向,即 u→vu→v 和 v→uv→u 是不同的边。:如上所述,天然生成拓扑顺序。
2025-02-14 21:39:40
384
原创 什么是 RDD?
每个工人处理自己手里的积木,但如果某个工人突然离开(节点故障),系统能快速用其他积木重新拼出他原本的部分。:将关键 RDD 持久化到可靠存储(如 HDFS),避免长血统链的重新计算开销。:结构化数据,支持 SQL 查询和优化引擎(Spark SQL)。从外部数据(如文件、数据库)加载,或由现有 RDD 转换而来。数据被切分成多个小块(分区),每个分区在集群不同节点上处理。定义如何生成新 RDD,但不会立即执行(惰性计算)。:记录 RDD 的生成过程,数据丢失时重新计算。触发实际计算,返回结果或保存数据。
2025-02-14 17:37:31
752
原创 Docker Compose
Docker Compose是一个用于定义和运行多容器Docker应用程序的工具。通过Compose,可以使用YAML文件(通常是docker-compose.yml)来配置应用程序所需的所有服务。然后,只需使用一个命令,就可以从YAML文件配置中创建并启动所有服务。这使得管理多个容器组成的应用变得更加简单和高效。
2025-02-13 12:56:44
497
原创 关于执行docker search报错超时
docker search并不会走daemon配置的加速源,配置过加速源之后systemctl restart docker重启docker之后,然后docker info 检查 register mirror,如果配置的加速地址已经显示,直接docker pull你需要的镜像就可以了。
2025-02-11 19:17:12
632
原创 关于“Doris当不使用Partition 建表时,系统会自动生成一个和表名同名的,全值范围的 Partition”的分析
对于小表或无需分区的场景(如测试表、临时表),用户可能不关心数据分区策略。部分业务场景(如日志流水表)的数据量较小或无需按分区管理生命周期,全量数据存储在一个 Partition 内是合理的选择。若允许创建无 Partition 的表,系统需处理“无归属数据”的特殊情况,增加存储引擎的复杂度。当用户后续需要引入分区时(如数据量增长),可以通过动态分区(Dynamic Partition)功能或重建表结构实现,而无需处理“无分区”历史数据的兼容问题。:所有表(无论是否显式分区)遵循相同的存储引擎逻辑。
2025-02-08 19:49:08
492
原创 事实表介绍
事实表(Fact Table)是数据仓库架构中的一个核心概念,特别是在星型模式(Star Schema)和雪花模式(Snowflake Schema)中扮演着至关重要的角色。它主要用于存储业务事件或交易的数据,这些数据通常是数值型的,并且与维度表(Dimension Table)相关联。
2025-02-07 10:58:11
451
原创 文件锁冲突介绍及其解决方案
在业务系统需要读取文件时,可以约定一个数据冻结窗口期。在这个时间段内,所有写入操作都被暂停或延迟执行,只允许读取操作进行。这样可以确保在读取操作进行时,文件不会被其他进程修改或锁定。然而,这种方法可能会对业务系统的性能和可用性产生影响,因此需要谨慎使用,并根据实际业务需求进行权衡。
2025-02-05 21:14:03
775
原创 什么是数据血缘?
数据血缘(Data Lineage),又称为数据血统、数据起源、数据谱系,具体指在数据的全生命周期中,从数据的产生、处理、加工、融合、流转到最终消亡,数据之间自然形成的一种类似人类血缘的关联关系。简单来说,。
2025-01-31 23:07:17
584
原创 大数据主要是为了解决什么问题?
此外,大数据技术还可以用于构建预警系统,及时发现潜在的风险和问题,为企业决策提供预警信息。传统数据处理工具和方法已无法满足这种大规模数据的处理需求,大数据技术的出现就是为了有效地管理和分析这些海量数据。通过对大数据的分析,企业可以获得关于市场趋势、消费者行为等方面的洞察,为战略规划和业务运营提供有力支持。:在许多应用场景中,如金融交易、在线零售等,对数据的实时处理和分析能力至关重要。通过大数据技术,可以挖掘出数据之间隐藏的关系和模式,这些洞察对于业务决策、科学研究等领域具有重要意义。
2025-01-24 13:38:49
352
原创 快照表介绍
定义:快照表是指在特定时间点上对某个表或数据集进行快照,保存当时的数据状态。它通常用于数据比较、历史记录、数据恢复等场景。功能捕捉数据在指定时间点的状态。支持历史数据的分析。提高查询性能,通过快照表可以快速获取特定时间点的数据。
2025-01-11 17:35:48
583
原创 Controller、Service和DAO
在软件开发中,尤其是使用MVC(Model-View-Controller)架构的应用程序中,Controller、Service和DAO(Data Access Object)是三个核心组件,它们各自承担着不同的职责,共同协作以实现应用的功能。
2025-01-08 21:10:53
380
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人