小四的快乐生活-优快云博客

原创关系型数据库、NoSQL、NewSQL 选型比对

垂直扩展为主（升级硬件），水平扩展需分库分表（Sharding-JDBC/MyCat），复杂度高。支持复杂 SQL（JOIN / 子查询 / 事务），OLTP/OLAP 均能覆盖（需优化）灵活 Schema（文档 / 键值 / 列族 / 图）、弱 JOIN。非结构化数据、高并发读写、灵活扩展（日志 / 缓存 / 物联网）分布式并发（TiDB 集群 TPS 可达百万），支持高并发事务。结构化数据、强事务、复杂关联（订单 / 支付 / 用户系统）海量结构化数据、强事务、高并发（互联网核心业务 / 金融）

2026-01-07 10:43:04 256

原创大数据SQL诊断（采集、分析、优化方案）

核心思路：组件原生日志采集“提交IP、SQL内容、提交方式”等业务属性，YARN数据（API/日志）采集“执行时长、资源使用、引擎类型”等调度属性，通过“YARN AppID”作为核心关联键，实现双源数据融合，最终输出结构化数据供分析使用。提交IP：kyuubi.session.user.ip=(\d+\.\d+\.\d+\.\d+)；提交IP：clientIP=(\d+\.\d+\.\d+\.\d+)；提交IP：spark.driver.host=(\d+\.\d+\.\d+\.\d+)；

2026-01-07 10:26:25 705

原创 Kerberos数据库备份与恢复实战

本文将从 Kerberos 认证体系的底层原理出发，深入分析 kadmin 在整个认证流程中的角色定位，系统梳理大数据组件与 Kerberos 的交互机制，并结合生产环境的实际需求，提供一套完整的运维决策框架。在大型分布式大数据集群中，Kerberos作为核心的身份认证系统，其数据库的安全性和可靠性直接关系到整个集群的正常运行。这个数据库包含了所有主体（Principals）的信息，包括用户、服务和主机的身份标识，以及对应的密钥和访问策略。用户获得 TGT 后，需要访问具体服务时，会向 TGS 发送请求。

2025-12-31 15:01:58 588

原创 CentOS 7 环境下 MySQL 5.7 两种部署方案，新手也能一次成功

方案二：/usr/local/mysql/bin/mysql -u root -pRoot@123456 -S /tmp/mysql.sock。# 方案二：/usr/local/mysql/bin/mysql -u root -p -S /tmp/mysql.sock。baseurl=http://192.168.1.100/mysql/5.7/el7/x86_64/ # 内网源地址。rm -rf /data/mysql/* # 方案二路径，YUM安装路径为/var/lib/mysql/*

2025-12-03 17:14:08 732

原创开源大数据组件技术研发与未来发展方向全景分析

开源大数据组件的技术研发正朝着“一体化、智能化、异构化、可信化”四大核心趋势演进：一体化聚焦批流一体、湖仓一体、云边一体，打破组件间的技术壁垒；智能化通过AI技术赋能数据采集、存储、计算、治理全流程，实现自动化与预测性能力；异构化适配CPU、GPU、NPU等多元算力，提升计算效率；可信化构建全链路安全合规体系，保障数据流转安全。对于技术研发者而言，需重点关注三大方向：一是统一架构的技术突破，如批流一体计算内核、多模态存储模型；二是AI与大数据组件的深度融合，实现智能调度、智能治理；

2025-11-20 15:00:04 560

原创大数据基础平台技术架构与核心技术能力深度研究报告

当前数字经济加速渗透，大数据基础平台已从单一数据处理工具演进为支撑AI落地、驱动产业升级的核心基础设施。其技术架构的迭代与技术能力的突破，直接决定了数据要素价值释放的效率与边界。本报告聚焦大数据基础平台的技术架构演进逻辑、核心技术组件能力、主流平台技术特征及未来技术突破方向，结合实际应用案例展开深度分析，为平台建设与技术选型提供参考。

2025-11-20 10:42:49 411

原创 Doris 踩坑实录：从数据导入到集群运维的实战经验

先明确业务场景与数据特性，再针对性配置参数、优化表结构和 SQL 写法，最后通过完善的监控和备份机制保障集群稳定。随着 Doris 版本的迭代，许多旧版本的“坑”已被官方修复（如新版本优化了数据倾斜处理、增强了元数据容错能力），因此建议在实际使用中选择稳定的 LTS 版本，并关注官方文档和社区动态，及时获取最佳实践方案。后续笔者也将持续分享 Doris 在实时分析、数据湖融合等场景的进阶经验，敬请关注。

2025-11-14 09:13:03 705

原创 Hive 存储管理测试用例设计指南

【代码】Hive 存储管理测试用例设计指南。

2025-08-19 15:25:25 1276

原创 Hive常用命令参考

本文摘要： Hive数据库操作指南，涵盖数据库创建/查看/删除，表操作（内/外部表、分区表），数据加载/导出，查询语句（基本查询、关联查询、子查询），分区与分桶管理，常用函数（字符串、日期、聚合函数）等核心操作。重点介绍了创建数据库和表的语法示例，包括注释、存储位置和属性设置，以及数据加载的两种方式（本地和HDFS）。同时提供了分区表操作、常用查询命令和Hive参数设置等实用技巧。

2025-08-19 15:20:58 720

原创 DEEPSEEK本地化安装

在软件设置中的 LLM首选项界面，选择提供商为 Ollama，在 Ollama Model 中选择前面下载的 DeepSeek-R1 系列模型，点击 Save changes 保存更改。在代理配置界面，将工作区代理LLM提供商选择为 Ollama，将工作区代理模型选择为 deepseek-r1，点击 Update workspace agent 更新工作区代理。打开新的CMD窗口，输入命令并按回车键，下载nomic-embed-text嵌入式模型（此模型将在后续数据投喂中使用）。

2025-03-04 14:50:08 865

原创 kafka小白基础知识

Kafka 是一个开源的分布式流处理平台，最初由 LinkedIn 开发，后来贡献给了 Apache 软件基金会。它被设计用于处理实时数据流，具有高吞吐量、可扩展性、持久性和容错性等特点。Kafka 主要用于构建实时数据管道和流式应用程序，如日志收集、消息系统、事件驱动架构等。

2025-02-24 10:27:08 1963

原创 Prometheus 和 Grafana：功能、部署搭建、使用全解析

Prometheus 是一款开源的系统监控和告警工具包，由 SoundCloud 开发，后成为独立开源项目并加入 CNCF。它以其强大的多维数据模型、灵活的查询语言等特性，广泛应用于云原生环境、微服务架构以及传统应用监控等场景。Grafana 是一个开源的可视化和分析平台，支持与多种数据源集成，能将数据以直观的图表、仪表盘等形式展示出来，帮助用户更好地理解和分析数据。

2025-02-22 07:45:00 1300

原创国产化数据库选型比较

高度兼容 ANSI SQL 标准，支持 Oracle SQL 语法和功能。兼容 ANSI SQL 标准，对 Oracle SQL 语法兼容性高。有可视化运维工具，支持自动化部署、监控和调优，社区支持丰富。分布式架构，支持分布式事务和数据分片，能自动均衡和恢复故障。分布式架构，计算与存储分离，支持多副本冗余和自动故障转移。自动化运维工具和可视化监控平台，支持实时监控和智能诊断。多模存储架构，支持行、列存储，有智能查询优化器。高度兼容 SQL 标准，扩展 ANSI SQL。

2025-02-21 10:24:50 1329

原创一文说清数据库选型

为助力您在数据库选型的迷宫中找到方向，本文全面对比各类主流数据库的优缺点，从传统的关系型数据库到新兴的非关系型数据库，从数据存储到数据处理，从事务支持到扩展性，全方位解析每种数据库的特性，旨在一文说清各种数据库的优缺点，为您的选型决策提供坚实可靠的依据。传统 Hive 对 ACID 支持有限，不过从 Hive 2.0 开始引入了对 ACID 事务的支持，通过使用不同的存储格式（如 ORC）和事务管理机制，可在一定程度上满足 ACID 特性，但性能和功能与传统关系型数据库的 ACID 支持仍有差距。

2025-02-21 07:00:00 1092

原创 MySQL 面试总结

经历了一场面试，虽然在过往的经验中，一直在处理MySQL出现的各种问题和各种优化，但对于MySQL的相关知识一直没有进行系统的学习，暴漏了对于底层逻辑的认知浅和基础知识的薄弱，汇总了一下基础知识内存，特供后续学习和参考。

2025-02-20 10:56:46 994

原创生产系统运营及升级规范

明确生产系统运营规范，确保生产系统稳定运行，所有操作可控并有迹可循。

2025-02-20 10:15:32 793

原创 zookeeper从入门到精通

ZooKeeper 是一个开源的分布式协调服务，由雅虎创建，后成为 Apache 的顶级项目。它为分布式应用提供了高效、可靠的协调服务，例如统一命名服务、配置管理、分布式锁、集群管理等。ZooKeeper 的数据模型类似文件系统，以树形结构存储数据，每个节点称为 Znode，每个 Znode 可以存储数据和子节点。

2025-02-20 08:30:00 2092

原创深入浅出数据中台：概念、架构与应用

数据中台是一套可持续 “让企业的数据用起来” 的机制，是一种战略选择和组织形式。它借助数据技术，对海量数据进行采集、计算、存储、加工，同时统一标准和口径，形成大数据资产，并提供服务化的数据接口，以满足前台应用和业务创新的需求。简单来说，数据中台就像是企业的数据 “中央厨房”，将各类数据原材料进行清洗、切配、加工，制作成一道道 “数据菜肴”，供前台业务部门随时取用。数据中台架构通常由数据采集层、数据存储与计算层、数据处理与建模层、数据服务层、数据治理层以及数据安全保障体系构成。

2025-02-19 10:53:48 1428

原创 Spark SQL 使用及进阶详解

Spark SQL 是 Apache Spark 中的一个模块，它提供了一种统一的方式来处理结构化和半结构化数据。Spark SQL 允许用户使用 SQL 语句或者编程接口（如 Scala、Java、Python 和 R）来查询数据，同时支持多种数据源，包括 Hive 表、JSON 文件、Parquet 文件等。它将 SQL 查询与 Spark 的分布式计算能力相结合，能够高效地处理大规模数据。可以创建自定义函数来满足特定的业务需求。python# Python 示例scala// Scala 示例。

2025-02-19 10:06:48 3755

原创大数据治理：解锁数据价值的关键

在数字化浪潮席卷而来的当下，数据已然成为企业和组织最具价值的资产之一。随着大数据规模呈指数级增长，大数据治理的重要性愈发凸显。它不仅关乎数据的质量与安全，更是释放数据潜能、驱动业务创新的核心所在。

2025-02-18 10:09:45 1078

原创 Hive SQL 使用及进阶详解

Hive 是建立在 Hadoop 之上的数据仓库基础架构，它提供了类似于 SQL 的查询语言 Hive SQL（也称为 HQL），用于对存储在 Hadoop 分布式文件系统（HDFS）中的大规模数据进行数据查询和分析。Hive 将 SQL 查询转换为 MapReduce、Tez 或 Spark 等分布式计算任务，使得不熟悉 Java 编程的数据分析人员也能方便地处理大规模数据。可以编写自定义函数来满足特定的业务需求。以下是一个简单的 Java 自定义函数示例：java。

2025-02-18 10:00:07 1814

原创 PostgreSQL 安装、常用命令及优化

，选择合适的版本。创建一个启动脚本，方便后续启动和管理 PostgreSQL 服务。根据实际业务需求和系统资源情况，还可以进一步调整优化参数。替换为你实际的 CentOS/RHEL 版本（如。首先，访问 PostgreSQL 官方下载页面（编译和安装过程可能需要一些时间，取决于系统性能。在编译之前，需要配置一些编译选项。保存并退出文件，然后重新加载。替换为实际的磁盘设备名。

2025-02-17 10:28:26 2650 1

原创数据治理DAMA方法论：数字化转型的数据驱动引擎

每季度对数据治理策略和流程进行全面复盘评估，根据业务发展动态和数据变化趋势，灵活调整数据治理措施，确保数据治理工作始终契合企业发展需求，持续提升数据治理水平。数据清洗与监控：充分利用专业的数据质量管理工具，定期对数据进行全面清洗，有效去除重复数据，精准修正错误数据。同时，构建严密的数据质量监控机制，实时跟踪数据质量指标，如数据准确性、完整性等关键指标，及时察觉并预警潜在的数据质量问题，确保数据始终处于高质量状态。管理关于数据的数据，包括数据定义、数据关系、数据来源等信息，帮助用户理解和使用数据。

2025-02-16 09:15:00 1485

原创 MySQL安装与优化

-datadir 指定数据目录。此方式灵活性高，可自定义安装路径和配置，但安装过程相对复杂，需手动处理依赖和配置。：sudo systemctl stop mysql 或 /usr/local/mysql/bin/mysqladmin -u root -p shutdown。：sudo systemctl start mysql 或 /usr/local/mysql/bin/mysqld_safe --user=mysql &：线程缓存大小，缓存空闲线程，减少线程创建和销毁开销，适当增大可提高并发性能。

2025-02-15 09:00:00 1198

原创 Oracle 小白安装部署

oracle.install.crs.config.asm.diskGroup.redundancy：指定 ASM 磁盘组的冗余级别，EXTERNAL 表示外部冗余，即不使用 ASM 提供的冗余功能，需要依赖外部存储设备的冗余机制。kernel.shmmni：指定了系统中共享内存段的最大数量。TEMPLATENAME：指定创建数据库时使用的模板名称，General_Purpose.dbc 是一个通用目的的数据库模板，它包含了常见的数据库对象和配置，适用于大多数业务场景，可在此基础上进行定制化配置。

2025-02-14 09:54:53 1036

原创 Linux 基础学习文档

Linux 是一套免费使用和自由传播的类 Unix 操作系统，其内核由林纳斯・托瓦兹（Linus Torvalds）在 1991 年首次发布。它以开源、稳定、安全、高效且可定制性强等特点，广泛应用于服务器、嵌入式系统、移动设备以及个人计算机等领域。

2025-02-13 12:35:11 1132

原创 Ansible 小白学习文档

Ansible 无需在远程节点上安装客户端，通过简单的 YAML 格式的剧本（Playbook）就可以实现批量系统配置、软件部署、任务执行等操作，具有简单易用、无代理、高效等特点。Ansible 的核心思想是通过剧本将多个任务组合在一起，按照预定的顺序在目标主机上执行。剧本可以包含多个 “剧本段”（Play），每个剧本段可以针对不同的主机组执行不同的任务。默认的主机清单文件是 /etc/ansible/hosts，也可以通过 -i 参数指定自定义的主机清单文件。" > /tmp/hello.txt 命令。

2025-02-12 14:57:12 767

weixin_44821805的博客