james二次元-优快云博客

原创 docker官方源无法使用的解决办法

docker官方源无法使用，更换国内的Docker源。https://download.docker.com/linux/centos/7/x86_64/stable/repodata/repomd.xml: [Errno 14] curl#7 - "Failed to connect to 2a03:2880:f10d:83:face:b00c:0:25de: Network is unreachable"Trying other mirror.

2024-06-19 09:00:00 9305 1

原创 Kafka之消费者分区分配策略

Consumer Group 中有多个消费者（Consumer），Topic 有多个分区（Partition），分区如何分给各 Consumer？这就是 Partition Assignment Strategy 的职责。Kafka 自 0.9 开始支持多种策略，2.4+ 又增加了新的 Sticky 版本。

2025-11-23 05:45:00 36

原创 Spring boot注解介绍

Spring boot注解介绍，包括Spring核心注解和Srping boot特有注解。

2025-08-31 14:30:58 1231

原创 Flink之CEP

Spring CEP（Complex Event Processing，复杂事件处理）是基于 Spring 框架的一类解决方案，用于处理高吞吐、低延迟的数据流事件，尤其适用于金融风控、物联网监控、日志分析、实时监控等实时流处理场景。

2025-06-10 05:15:00 799

原创 Spring boot/cloud集成nacos

在 Spring Boot 或 Spring Cloud 中集成 Nacos（作为配置中心或服务注册中心）是非常常见的场景。下面是基于 Spring Boot 3.x / Spring Cloud 2022.x+ 的标准集成方式。

2025-06-07 05:30:00 593

原创 Spring之AOP

Spring AOP（Aspect-Oriented Programming，面向切面编程）是 Spring Framework 的一个重要模块，它为面向切面编程提供了支持。AOP 主要用于模块化关注点（concerns），尤其是那些横切关注点（cross-cutting concerns），例如：日志记录、安全检查、事务管理等。

2025-05-20 13:48:54 621

原创 Flink之Table API

Apache Flink 的 Table API 是 Flink 提供的一种高级抽象，用于以声明式方式处理批处理和流处理数据。它是基于关系模型的 API，用户可以像编写 SQL 一样，以简洁、类型安全的方式编写数据处理逻辑。

2025-05-09 14:30:50 1473

原创 Flink之DataStream

Apache Flink 的 DataStream API 是用于处理无限（流）或有限（批）数据流的核心编程模型，适用于事件驱动、实时分析、ETL 等场景。相比 Flink Table API，DataStream API 提供了更强的灵活性和底层控制能力。

2025-04-30 10:48:57 1484

原创容器之Docker Swarm

Docker Swarm 是 Docker 官方提供的原生集群管理工具，用于管理和编排多个 Docker 容器，实现容器的高可用、负载均衡、动态伸缩等功能。Swarm 主要用于分布式部署、弹性伸缩、服务发现，并且与 Docker 生态无缝集成，是轻量级的容器编排工具。

2025-03-21 05:00:00 1217

原创分布式的消息流平台之Pulsar

Apache Pulsar 是一个分布式的消息流平台，集成了**消息队列（MQ）和流处理（Stream Processing）**能力。Pulsar 不仅提供低延迟、高吞吐的消息传输能力，还支持基于 Pulsar Functions、Flink、Spark Streaming 的流式处理能力。

2025-03-19 07:47:39 1090

原创 Informatica介绍

Informatica 是一个领先的数据集成和数据管理平台，提供 ETL（Extract, Transform, Load）解决方案，同时涵盖数据治理、主数据管理（MDM）、云数据集成、数据质量等多个领域。它广泛用于数据仓库、数据湖、数据分析、主数据管理、数据治理等企业级应用场景。

2025-03-07 05:00:00 1860

原创湖仓一体之Lakehouse

Lakehouse（数据湖仓）是一种融合了数据湖（Data Lake）与数据仓库（Data Warehouse）优势的新型数据架构。它结合了数据湖的存储灵活性和数据仓库的管理能力、事务性和高性能查询，适用于现代数据分析与机器学习场景。

2025-03-06 05:15:00 830

原创分布式查询服务之Kyuubi

Kyuubi 是一个高效的分布式数据查询服务，基于 Apache Spark 构建，旨在提升 Spark 的可扩展性、可靠性以及易用性。它为数据工程师和数据科学家提供了一个更加简化和统一的方式来访问 Spark 集群，同时支持 SQL 查询、JDBC、ODBC 接口等。Kyuubi 的目标是将 Spark 的 SQL 查询能力扩展为更加高效和灵活的查询引擎，尤其是在大规模分布式环境下。Kyuubi 的架构灵活，能够支持不同的查询引擎扩展，并且为企业级应用提供了更多的可定制性。

2025-02-28 05:15:00 1101

原创对象存储之Ceph

Ceph 是一个开源分布式存储系统，旨在提供高度可扩展、高度可用、容错、性能优异的存储解决方案。它结合了块存储、文件系统存储和对象存储的功能，且在设计上具有极高的可扩展性和灵活性。在 Ceph 中，对象存储（Ceph Object Storage）是一个非常重要的组件，它主要是通过 RADOS（可靠自动分布式对象存储）来实现的。Ceph 对象存储通常用于存储非结构化数据，比如大规模的图片、视频、备份等，它支持通过 RESTful API 提供对象存储服务。

2025-02-24 05:00:00 1092

原创 AI之DeepSeek

DeepSeek 是一个开源的基于深度学习的搜索引擎，用于在大规模数据中进行高效的内容检索和相似度搜索。它利用深度学习技术，特别是嵌入（embedding）技术，以改进传统搜索引擎中基于关键词的匹配方式，能够对复杂的查询和内容进行更精确和智能的理解。DeepSeek 主要侧重于基于语义的搜索，通过将数据（例如文本、图像、音频等）转换为向量表示，来实现更为精准的相似度搜索。它的应用场景包括但不限于自然语言处理（NLP）、图像搜索、推荐系统等。

2025-02-20 05:00:00 1762

原创 Spark之PySpark

PySpark 是 Apache Spark 的 Python API，它允许开发者使用 Python 编程语言进行大规模数据处理和分析。Apache Spark 是一个快速、通用、可扩展的大数据处理引擎，支持批处理、流处理、机器学习、图计算等多种数据处理模式。PySpark 使得 Python 开发者能够利用 Spark 强大的分布式计算能力，处理大数据集，并执行高效的并行计算。

2025-02-19 05:15:00 1467

原创 Flink之Watermark

Apache Flink 是一个分布式流处理框架，它非常擅长处理实时数据流。流处理中的一个关键挑战是事件时间的处理，因为在流式数据中，事件到达系统的顺序可能并不代表它们的实际发生时间。为了解决这一问题，Flink 引入了**Watermark（水印）**机制，用于处理乱序数据和保证事件时间的正确性。

2025-02-12 09:13:04 837

原创容器之K3s

K3s 是一种轻量级的 Kubernetes 发行版，由 Rancher Labs 开发，旨在提供一个简化、高效的 Kubernetes 集群解决方案。K3s 是完全兼容 CNCF (Cloud Native Computing Foundation) 的 Kubernetes，但其设计更轻量，特别适合边缘计算、物联网 (IoT)、开发环境和资源受限的环境。

2025-01-13 05:00:00 1340

原创 OLAP之Pinot

Apache Pinot 是一个实时分布式在线分析处理（OLAP）系统，专为低延迟、高吞吐量地查询大规模数据而设计。Pinot 适用于高并发、低延迟的分析场景，特别是在实时和批处理数据的查询中表现优异。广泛应用于实时用户仪表盘、监控系统、推荐引擎等领域。

2025-01-07 05:00:00 1734

原创 Flink之ForST DB

Flink 作为一款实时流处理框架，广泛应用于实时计算、事件驱动的应用场景。为了支持大规模状态存储和计算，Flink 的状态后端设计允许将状态存储在外部系统中。ForST DB 是一个针对 Flink 存算分离架构设计的高性能状态存储系统，旨在提升状态管理的可扩展性、性能和可靠性。

2024-12-23 05:00:00 1966

原创开源搜索引擎之Elasticsearch

Elasticsearch 是一个分布式、开源的全文搜索和分析引擎，专为大数据环境中的快速搜索和数据分析而设计。它基于 Apache Lucene 构建，提供了强大的全文检索能力、实时数据处理和分布式存储，常与 Logstash 和 Kibana 一起组成 Elastic Stack（以前称为 ELK Stack）。

2024-12-03 05:00:00 776

原创 API网关之Flomesh Gateway

Flomesh Gateway 是一款企业级的云原生流量网关，旨在提供高性能、可扩展性强的服务通信与流量管理能力。它支持多协议、多平台的负载均衡、服务发现、安全控制、流量路由和 API 网关功能。Flomesh Gateway 专为现代分布式应用设计，适合 Kubernetes 和服务网格等云原生环境。

2024-11-26 05:00:00 782

原创可视化平台之Kibana

Kibana 是一个开源的分析和可视化平台，专门用于与 Elasticsearch 结合，提供强大的数据探索、分析、可视化和监控功能。它是 Elastic Stack（原 ELK Stack）的一部分，主要用于日志数据、性能数据以及其他类型的时序数据的展示和分析。通过 Kibana，用户可以构建仪表板、查看日志、进行数据搜索、分析并生成可视化图表。它提供了直观的界面，使得数据分析过程更加简单，特别是在数据量非常大的情况下，能够高效地帮助用户快速洞察数据的意义。

2024-11-17 05:00:00 1932

原创数据收集之Logstash

Logstash 是一个开源的数据收集、处理和转发管道工具，通常用于从不同来源收集、处理和传输日志数据。它是 Elastic Stack（以前称为 ELK Stack）的一部分，常与 Elasticsearch 和 Kibana 一起使用，用于实时分析和可视化日志数据。Logstash 支持多种输入、过滤、输出插件，并提供强大的数据处理功能，广泛应用于日志分析、数据集成和实时监控等场景。

2024-11-14 05:00:00 848

原创图数据库之Dgraph

Dgraph 是一个开源的分布式图数据库，专注于高性能、高可扩展性的数据存储和查询。Dgraph 以强大的图数据模型为基础，特别适合社交网络、推荐系统和复杂关系查询等应用。Dgraph 使用 GraphQL 作为查询语言，简化了与其他应用的集成。

2024-11-12 05:00:00 1368

原创 API网关之Gravitee

Gravitee是一款开源的API管理平台和网关，广泛应用于API的设计、部署、管理和保护。它支持构建、部署和维护API，并提供了丰富的功能用于API流量的控制、监控和安全保护。Gravitee的主要特点是其模块化和高度可配置的架构，使其能够灵活地满足不同企业的需求。

2024-11-08 05:00:00 1400

原创配置管理之Consul

Consul 是 HashiCorp 推出的一款用于服务发现、配置管理、和服务网格的开源工具。Consul 通过分布式架构来实现自动化的服务发现和健康检查，并具备内置的服务网格功能，支持动态负载均衡、加密和 ACL 管理，广泛用于微服务架构、云原生应用和跨数据中心的集群管理。

2024-11-05 05:00:00 972

原创云原生文件系统之JuiceFS

JuiceFS 是一个分布式文件系统，专门为云原生环境设计，支持大规模数据存储和处理，特别适用于处理对象存储和大数据应用。JuiceFS 将元数据和数据分离，元数据保存在数据库中，而文件数据则存储在对象存储中，提供 POSIX 兼容的文件系统接口。JuiceFS 的设计使其能够在性能、扩展性和成本之间取得平衡，为用户提供快速、灵活的数据存储解决方案。

2024-10-31 05:00:00 1464

原创 Nacos之安装部署

Nacos 的安装可以根据需求选择不同的方式，包括本地安装、Docker 安装和Kubernetes 部署。下面将介绍几种常见的安装方式。

2024-10-25 05:00:00 2975

原创大规模图形计算框架之HAMA

Apache HAMA 是一个分布式的计算框架，专门设计用于大规模图形和网络计算，它的核心模型是 Bulk Synchronous Parallel (BSP) 模型，这个模型适用于图形计算、机器学习和科学计算等领域。HAMA 通过 BSP 模型处理大规模的矩阵操作和网络流分析，与 MapReduce 不同，它的计算模型更适合处理复杂依赖的并行计算任务。

2024-10-23 05:00:00 821

原创配置管理之Nacos

Nacos 是阿里巴巴开源的动态服务发现、配置管理和服务管理平台，专为构建现代微服务架构设计。Nacos 是 “Dynamic Naming and Configuration Service” 的缩写，旨在简化微服务应用中的服务注册、配置管理和动态服务发现。它为服务提供了集中化的管理平台，帮助开发者更轻松地实现服务间的通信与配置管理。

2024-10-21 05:00:00 968

原创图计算框架之Giraph

Apache Giraph 是一个大规模并行图处理框架，专门用于处理社交网络、推荐系统等图结构数据。它是一款基于 Bulk Synchronous Parallel (BSP) 模型的分布式图计算系统，最初设计为用于 Facebook 等社交媒体平台处理海量图数据的工具。Giraph 是在 Hadoop 的 MapReduce 之上进行优化并独立发展的，专门用于高效处理超大规模的图计算任务，如 PageRank、最短路径等。

2024-10-18 05:00:00 1779

原创大数据查询引擎之Tez

Apache Tez 是一个用于大数据处理的分布式计算框架，旨在提高 Hadoop 的 MapReduce 计算引擎的效率和性能。它是一个面向 DAG（有向无环图）任务执行的框架，主要用于大规模数据处理场景中，特别是在 Apache Hadoop 生态系统中。Tez 的出现大大提高了 Hadoop 的计算效率，尤其是在复杂的批处理和交互式查询场景中，得到了广泛应用。

2024-10-17 05:00:00 1995 1

原创 DolphinScheduler 之时间参数

在 DolphinScheduler 中，调度时对时间参数的使用非常重要，尤其是当你在数据处理、ETL 任务或其他需要依赖时间范围的任务场景中。DolphinScheduler 允许通过多种方式灵活地配置时间参数，以适应不同的任务调度需求。以下是时间参数在 DolphinScheduler 调度中的常见使用方法：

2024-10-15 05:00:00 4087

原创 API网关之Hango

Hango 是基于云原生和服务网格技术的开源 API 网关，专为现代分布式系统设计，提供高效、安全、可扩展的流量管理解决方案。Hango 网关是基于 Envoy Proxy 构建的，能够处理复杂的微服务架构中流量控制、服务治理和安全需求。Hango 强调与 Kubernetes 等云原生生态系统的深度集成，支持灵活的架构和流量治理功能。

2024-10-11 05:00:00 1235

原创 MySQL 之权限与授权

MySQL 权限及授权系统用于控制数据库用户对数据库资源的访问和操作权限。它提供了一种细粒度的安全控制机制，确保只有被授权的用户才能执行特定的操作。MySQL 的权限控制体系非常灵活，支持多种权限类型及级别（数据库、表、列、存储过程等）。接下来，我将详细介绍 MySQL 的权限体系及其授权过程。

2024-10-09 05:00:00 1944

原创 DevOps之GitLab

GitLab 是一个基于 Git 的开源 DevOps 平台，提供版本控制、持续集成/持续交付（CI/CD）、项目管理等功能，旨在帮助开发团队协作和自动化软件开发流程。GitLab 可以自托管，也可以使用其云服务，适用于个人、小团队和大型企业。

2024-09-25 05:30:00 740

原创 Doris之使用优化

在使用 Doris（原名 Apache Doris 或 Palo）过程中，可以通过多种方式优化性能和资源利用效率。通过合理设计表结构、优化数据导入和查询、调整执行计划、内存管理、并行处理等多种策略，可以显著提高 Doris 的性能和资源利用效率。

2024-09-25 05:00:00 1166

原创图数据库之TigerGraph

TigerGraph 是一个高性能、企业级的分布式图数据库，专为实时大规模图分析而设计。它支持图形的复杂查询和分析，并能够处理数十亿个节点和边的关系数据，广泛应用于金融、医疗、社交网络、电信等行业中的复杂关联分析场景。以下是 TigerGraph 的详细介绍：

2024-09-24 05:00:00 1459

原创 Hive之任务优化

Hive 是一个基于 Hadoop 的数据仓库工具，提供了 SQL-like 的查询语言来分析存储在 HDFS（Hadoop Distributed File System）上的大规模数据集。为了提高查询性能，Hive 提供了多种优化方法，涵盖不同层次的改进，从 SQL 查询层到执行层。

2024-09-23 05:00:00 1356

深入分析Linux内核源码.pdf

maven-3.5.4

空空如也