克里斯蒂亚诺罗纳尔多阿维罗-优快云博客

原创虚拟机如何扩容磁盘

扩容虚拟机磁盘的过程可以分为两个主要步骤：在虚拟化平台扩容虚拟磁盘和在虚拟机操作系统内部扩展分区和文件系统。在 Linux 系统中，我们使用fdisk删除并重新创建分区，并通过xfs_growfs扩展文件系统。需要注意的是，删除分区不会导致数据丢失，因为数据实际存储在磁盘上的数据区域，而分区表只是记录了分区的起始和结束位置。

2025-03-20 17:29:54 815

原创湖仓一体：数据湖与数据仓库的融合模式解析

湖仓一体架构作为数据管理领域的新兴架构，结合了数据湖的灵活性与数据仓库的高效查询性能。它不仅解决了传统湖仓分离架构中数据管理和同步的复杂性，还能够支持更广泛的数据分析应用，尤其适合那些需要处理大量结构化、半结构化和非结构化数据的场景。随着技术的不断发展，湖仓一体的实现将越来越普及，为企业提供更加高效、灵活和统一的数据管理平台。

2025-03-20 14:05:11 634

存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，存算一体架构通过硬件和软件的优化，使得数据存储与计算操作能够更加高效地协同工作。在存算一体的系统中，存储设备（如 SSD、硬盘）与计算设备（如 CPU、GPU）之间的通信效率大大提高。存储和计算的紧密耦合减少了数据在存储和计算之间传输的延迟，显著提升了数据处理的性能和效率。存算一体：适用于对性能要求较高、实时性强的场景，如大数据分析和人工智能训练。

2025-03-20 14:00:23 1030

原创 Flink集群部署

客户端把Flink应用提交给Yarn的ResourceManager，Yarn的ResourceManager会向Yarn的NodeManager申请容器。在这些容器上，Flink会部署JobManager和TaskManager的实例，从而启动集群。通过WebUI提交作业，具体流程可参考上面，提交后可见Yarn动态分配了1个Task Managers，将作业取消后又变为0个，被Yarn回收资源。在一些应用场景中，对于集群资源分配和占用的方式，可能会有特定的需求。然后用同样的方法在WebUI查看该作业。

2025-03-19 16:58:12 1091

原创电脑管家如何清理内存及垃圾，提升电脑性能

通过定期使用电脑管家清理内存和垃圾文件，用户可以显著提高电脑的运行速度。电脑管家不仅能够释放内存空间，优化系统资源分配，还能够清理无用的垃圾文件，减少磁盘碎片，进而提升系统性能。定期清理电脑，不仅能够提高使用体验，还能延长电脑的使用寿命。

2025-03-18 17:06:16 1115

原创 Kafka详解——介绍与部署

本文讲解了kafka，并说明了如何在本地部署kafka

2025-03-18 16:04:08 1540

原创 Flume详解——介绍、部署与使用

本文讲解了如何部署Flume，并使用Flume实现数据采集到HDFS

2025-03-17 18:10:22 746

原创集群批量命令执行工具 xcall 配置指南

在管理 Hadoop 集群时，我们经常需要在多个节点上执行相同的命令，比如检查 Java 进程、重启服务、查看日志等。手动一台台 SSH 登录执行不仅麻烦，还容易出错。今天我们就来写一个简单又高效的批量命令执行工具 ——xcall，让集群管理更丝滑。

2025-03-17 16:33:30 606

原创大数据技术链路详解

随着大数据技术的不断发展，各种新兴技术层出不穷，今天我们就来详细拆解一条完整的大数据链路，看看每个环节都有哪些最新技术参与，以及它们如何发挥作用。用户行为日志数据落地到HDFS中作为原始存储，订单数据存入HBase支持实时查询，指标聚合数据写入ClickHouse，供BI系统实时展示。用户日志数据经过Spark进行离线清洗，实时订单数据用Flink完成风控分析，最终的指标数据由Trino查询多数据源生成报告。数据经过采集、存储、处理，最终要服务于实际业务需求，比如报表展示、实时监控、机器学习模型训练等。

2025-03-17 14:49:23 1088

原创开源数据仓库全解 — 从原理到实践

数据仓库（Data Warehouse，简称 DW）是面向分析和决策的专门数据存储系统，旨在整合来自多个源的数据，支持复杂查询和大规模分析任务。

2025-03-15 18:33:07 1128

原创 2024最新大数据技术盘点与企业实战案例

大数据技术日新月异，不断涌现的新工具和框架正在改变数据处理和分析的方式。从数据采集、存储，到处理、分析，各环节都有高效、成熟的技术方案。企业可以根据自身业务特点，选择最合适的技术栈，构建灵活高效的数据平台，实现数据驱动的业务增长。

2025-03-15 18:20:51 452

原创本地部署Spark集群

本文讲解了如何本地部署Spark集群，主要分为Local模式与Yarn模式

2025-03-15 17:53:02 702

原创本地部署Hive集群

配置如下内容在Hadoop的core-site.xml中，并分发到其他节点，且重启HDFS集群。Hive的运行依赖于Hadoop(HDFS、Mapreduce、YARN都依赖)同时涉及到hDFS文件系统的访问，所以需要配置Hadoop的代理用户。即设置hadoop用户允许代理(模拟)其他用户。

2025-03-10 23:09:30 756 1

原创本地YARN集群部署

本地介绍了如何在本地部署YARN集群，包括修改MapReduce配置文件，修改YARN配置文件,分发配置文件，启动HDFS，启动YARN，查看YARN的WEB UI页面

2025-03-05 20:27:09 792

原创 MapReduce 深度解析：原理与案例实战

MapReduce 是由 Google 提出的一种分布式计算模型，主要用于大规模数据集的处理。Map（映射）阶段：将输入数据分成多个数据块，每个数据块经过映射函数处理后，生成一系列键值对。Reduce（归约）阶段：将 Map 阶段生成的键值对按照键进行分组，然后对每个组内的值进行聚合处理，得到最终的结果。这种设计使得数据处理可以分布在多台计算机上同时进行，从而实现高效的并行计算。

2025-03-05 19:25:30 1053

原创分布式存储框架HDFS详解

本文讲解了HDFS的基础架构、存储原理、NameNode元数据、HDFS数据的读写流程以及HDFS的常用命令

2025-03-05 15:16:49 696

原创本地部署HDFS集群

本文讲解如何在本地部署一个HDFS集群

2025-03-03 22:15:41 437

原创本地部署大数据集群前置准备

本文讲解了本地部署大数据集群时做的一些前置准备，包括创建虚拟机并克隆、固定IP、配置主机名映射、配置免密登录、配置JAVA环境、关闭防火墙、进行时间同步等

2025-03-03 20:00:43 815

原创 ClickHouse 的分区、分桶和分片详解

分区（Partition）是 ClickHouse 物理上存储数据的基本单元，它将数据按某个逻辑字段进行拆分，并存储到不同的分区目录下。分区的主要作用是提高查询效率和提升数据管理的灵活性。在 ClickHouse 中，分区是基于语句来定义的。上述表的分区策略是基于order_date的年月（YYYYMM），即数据会按每个月创建一个分区。分桶（Sampling）是一种基于SAMPLE BY语法的表数据拆分方式，主要用于随机抽样查询。分桶不会物理上拆分数据，而是基于哈希值进行数据分布。在MergeTree。

2025-02-26 20:31:25 889

原创更换ES集群版本后设置密码时遇到的错误及解决方案

数据目录的兼容性：不同版本的Elasticsearch在数据目录结构和安全配置上可能存在差异。确保升级前阅读官方的升级指南，了解版本间的兼容性和需要迁移的数据配置。备份重要数据：在进行任何破坏性操作（如清空数据目录）前，务必备份重要数据，以防数据丢失。分阶段升级：如果可能，尽量进行逐步升级，并在每个阶段验证集群的健康状态和功能是否正常。配置文件审查：升级后，仔细检查中的配置项，确保所有配置都符合新版本的要求，并避免配置冲突。监控与日志检查。

2025-01-09 00:31:05 1215

原创如何当前正在运行的 Elasticsearch 集群信息

API，查看集群、节点和健康状态等信息，或者使用 Kibana 的 Stack Monitoring 界面来可视化这些信息。API 提供了关于集群节点的详细信息。如果你需要获取更详细的节点信息，如操作系统、JVM、硬件等资源使用情况，可以使用。监控界面查看集群的状态、节点、索引等信息。返回的信息非常详细，涵盖了节点的所有配置信息、硬件信息、JVM 设置等。如果你有 Kibana 部署在集群中，可以通过 Kibana 的。API 返回集群的健康状态、节点数量、分片状态等信息。，即可看到集群的概况。

2025-01-08 23:14:01 717

原创什么是Socket？一文详解网络编程的核心工具

Socket 是网络编程的核心工具，它为开发者提供了灵活的接口，用于实现各种网络通信功能。尽管它使用起来需要处理许多底层细节，但它也是理解网络通信和协议的基础。如果你想深入学习网络编程，熟练掌握 Socket 是必不可少的。希望这篇文章能帮助你理解 Socket 的概念和使用方法！如果有任何疑问，欢迎留言讨论。

2025-01-01 15:26:04 986

原创深入解析 Elasticsearch 集群配置文件参数

通过上面的参数解析，我们可以看出文件对 Elasticsearch 集群运行行为有着关键影响。从基础的集群和节点命名，到数据和日志存储，再到网络配置和集群发现机制，每个参数都与集群的稳定性、可扩展性和安全性息息相关。清晰定义集群和节点名称：易于识别和管理。独立存储数据与日志：为数据提供高性能与安全的持久化存储。安全的网络设置：使用内网 IP 作为 publish_host，根据需要限制访问。合理的发现和主节点配置：确保集群在初次启动时能正常选举主节点，并有足够的 seed 节点进行自动发现。

2024-12-16 17:06:56 710

原创使用 esrally race 测试 Elasticsearch 性能及 Kibana 可视化分析指南

在使用对 Elasticsearch 性能进行基准测试的同时，借助 Kibana 的 Stack Monitoring、Discover、Dashboard 和 Dev Tools 等功能，可以从多个维度深入了解集群状态和数据分布情况。通过 Dev Tools 提供的快捷查询命令，您可轻松查看索引统计、分片分布、节点资源使用与查询响应，从而迅速定位性能瓶颈和问题根源。

2024-12-16 16:58:44 1288

原创利用 Flink 构建实时数据写入流水线：从 Paimon 到 Iceberg

通过一条通用 Flink 作业提交命令和不同参数配置的对比，我们了解了在 Paimon 与 Iceberg 场景下如何实现高吞吐、可扩展的实时数据写入。利用 Flink 强大的流处理能力、Paimon 与 Iceberg 的数据湖表特性，以及云对象存储的低成本与高弹性，企业可轻松构建满足实时分析与灵活扩容需求的现代数据架构。通过优化参数（如rowsCount等），数据团队可对性能、成本和可靠性进行平衡和微调，从而在不断变化的业务与技术环境中保持竞争优势。

2024-12-16 16:37:37 679

原创全面解读 Databricks：从架构、引擎到优化策略

Databricks 是一个基于云的统一分析平台，旨在解决企业在大数据处理、数据仓与数据湖融合、实时分析与机器学习上的诸多挑战。通过高度整合的计算引擎、存储层以及可扩展的生态体系，Databricks 帮助企业快速搭建现代数据分析和机器学习架构。全托管云平台：减少基础设施运维成本，自动扩容、弹性计算。协作环境：支持 Notebook、Job 调度和版本控制，多团队可并行开发、测试和部署。混合架构：统一数据湖和数据仓（Lakehouse），简化数据处理链路。可扩展的生态。

2024-12-16 16:27:11 2539

原创探索 AIGC：从内容生产到智能创意的新时代

AIGC（AI Generated Content）指的是通过智能算法和模型，让计算机自动创作文本、图像、音频、视频等内容类型。与传统的人工创作不同，AIGC 的创作者是人工智能系统。该技术可在数秒内完成以往需要数小时、人力投入才能完成的内容生产，大大提升了创作效率和灵活性。例如，当您与智能聊天机器人沟通时，它可在片刻间为您生成一段产品介绍文案或一篇新闻稿；当您需要新款产品的宣传海报，AIGC 工具可根据关键词快速输出初稿设计。AIGC 正在重塑人类内容生产和创意表达的范式。

2024-12-16 16:23:38 1114

原创使用 esrally race 测试 Elasticsearch 性能：实践指南

在 Elasticsearch 的性能测试中，合理选择测试场景和参数是关键。提供了丰富的挑战类型（Challenge）用于模拟不同的使用场景，帮助我们评估集群的表现。本文将详细介绍如何使用进行测试，并分析不同挑战类型的应用与测试结果。

2024-12-16 16:01:29 1050

原创搭建 Elasticsearch 集群：完整教程

本文将详细介绍如何在 Linux 环境下搭建一个 Elasticsearch 集群，涵盖环境准备、配置优化、服务启动等多个环节。

2024-12-16 15:55:07 1421

原创深入了解 Presto：高性能分布式 SQL 查询引擎

Presto 是一个高效、灵活的分布式 SQL 引擎，适用于大数据实时分析和多数据源整合查询。

2024-10-28 17:06:45 777

原创深入理解 HBase：基于 Hadoop 的高性能分布式 NoSQL 数据库

HBase是一种基于Hadoop的分布式、面向列的NoSQL数据库，主要用于大数据应用中的高性能、随机读写操作。它HDFS，利用Hadoop的和功能，能够处理大量非结构化半结构化的数据。HBase的设计灵感来自于Google的Bigtable。

2024-10-26 15:30:42 754

原创 YARN 中的 CPU 资源隔离：基于 Cgroups 的实现

在 YARN中，CPU 资源隔离通过实现。Cgroups 是 Linux 内核中的一个功能，允许我们限制、控制和隔离进程的资源使用。YARN 利用 Cgroups 来隔离和管理容器的 CPU 资源，确保每个任务在集群中公平地获得计算资源，避免相互干扰，提高集群的资源利用效率。

2024-10-25 16:10:34 546

原创 ClickHouse 的全面解析：高性能列式存储数据库

ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的（DBMS），使用 C++ 语言编写，主要用于（OLAP），能够使用实时生成分析数据报告。OLAP（On-line Analytical Processing，联机分析处理）是在基于数据仓库多维模型的基础上实现的的各类操作的集合。可以比较下其与传统的OLTP（On-line Transaction Processing，

2024-05-20 17:27:36 1119

原创 SpringBoot使用Websocket控制评测机

1.：后端通过WebSocket等技术与评测机建立连接，接收评测机的注册请求，获取评测机的相关信息，如用户 ID、连接会话等。2.：后端将评测机的信息注册到系统中，以便后续管理和分配评测任务。3.：后端根据评测机的压力情况和当前系统负载情况，从中选择合适的任务，并将任务分配给评测机。4.：评测机接收到评测任务后，执行相应的评测操作，如运行测试用例、评测代码等。5.：评测机执行完评测任务后，将评测结果，后端。6.：后端根据评测机的状态更新请求，

2024-04-05 18:08:49 678

原创 Error: Could not find or load main class org.apache.hadoop.hbase.util.GetJavaProperty

Hbase 没有将其自身的依赖包添加到 classpath 配置路径所以才会导致找不到自身主类的报错。修改成功后，不再报错。

2024-03-22 18:40:10 1088

原创解决VM重新打开后找不到共享文件夹的问题

我的问题是之前按照网上的文档设置了vm的共享文件夹，能成功使用，但是问题是下一次打开之后就找不到了，虚拟机设置里共享文件夹是启用的，文件夹也完成了映射网络驱动器，但是就是找不到共享文件夹。然后就能在/mnt/hgfs下看到共享的文件夹了。

2024-03-22 14:06:43 2958 1

原创深入了解 Gradle 构建工具

Gradle 是一种用于构建项目和自动化构建过程的强大工具。它提供了一种灵活、高效的方式来管理项目依赖、编译代码、运行测试、打包应用程序等任务。Gradle 基于 Groovy 和 Kotlin 语言，使用了一种称为 Groovy DSL（领域特定语言）的语法来定义构建脚本。

2024-03-20 18:04:15 445

原创 Maven 简介：项目管理与构建工具

Maven 使用中央仓库作为默认的依赖库，其中包含了大量的开源 Java 库和框架。开发人员也可以设置自定义的仓库，用于存储和共享项目的依赖项和构件。

2024-03-20 17:06:44 638

原创 Docker 简介：容器化平台及其应用场景

当谈论 Docker 时，通常是指 Docker 容器化平台。Docker 是一种容器化平台，它使用容器来打包、交付和运行应用程序。下面是关于 Docker 的一些关键概念和重要功能

2024-03-20 16:38:10 1487

原创 MyBatis-Plus 中的 LambdaQueryWrapper 使用指南

LambdaQueryWrapper 是中的一个，它提供了一种方便的方式来构建查询条件，。LambdaQueryWrapper 的语法相对简洁，使得代码更加清晰易读。下面详细介绍 LambdaQueryWrapper 的具体语法，并举例说明。

2024-03-17 17:33:32 779

空空如也

空空如也