翰林小院-优快云博客

原创阿里云白皮书-架构

为提升不同地域之间以及终端用户网络访问性能，客户可基于阿里云GA全球加速产品，自动优化公网访问链路，提供优质的终端用户访问接入，优化最后一公里网络质量。通过将分布在全球的用户流量就近接入阿里云，以及通过高质量的核心骨干网专线回源，为用户提供端到端的全球网络加速能力。同时，针对跨境访问慢的问题，覆盖全球的互联网加速使跨境传输效率得到大幅提升。

2025-10-16 14:08:45 828

在现代分布式系统中，Redis 作为高性能的内存数据存储，其集群方案的选型直接决定了系统的稳定性、可用性和扩展性。本文将深入剖析 Redis 的三种核心集群方案：主从复制、哨兵模式和 Cluster 集群，结合实际应用案例厘清它们的区别、原理及适用场景，助您做出最合理的架构决策。Redis 集群要解决的核心问题有三个，其演进过程也正是逐步解决这些问题的过程：定位：数据备份与读写分离，是所有高可用方案的基础。架构：一主（Master）多从（Slave）。主节点处理写操作，从节点异步复制主节点数据，并承担读请求

2025-10-15 14:25:52 588

原创【MongoDB】 MongoDB index overview

以一个简单的索引为例：索引类型单字段索引MongoDB 中索引失效的情况有很多，理解这些情况有助于你写出更高效的查询语句。以下是一些常见导致索引失效的原因：1. 查询条件不满足最左前缀原则如前所述，如果你创建了复合索引，但查询时只使用了，则索引不会被使用。2. 使用不支持索引的操作符3.字段类型不一致4.排序字段不在索引中5. 使用函数或表达式查询6.数据量太小，MongoDB 选择全表扫描在某些情况下，如果集合数据量很小，MongoDB 的查询优化器可能认为全表

2025-10-14 13:00:36 769

原创【RabbitMQ】 RabbitMQ Overview

RabbitMQ消息队列协议分析及工作模式摘要：本文介绍了RabbitMQ支持的多种消息协议，重点分析了AMQP0-9-1协议的特点及应用场景。RabbitMQ由Broker、Exchange、Queue三部分组成，消息通过Producer发送到Exchange，再路由到Queue由Consumer消费。文章详细阐述了RabbitMQ的几种工作模式：简单模式（HelloWorld）、工作队列模式（WorkQueue）、发布/订阅模式（fanout）、路由模式（direct）和主题模式（topic），其中主

2025-10-13 10:41:22 1150

原创【大数据专栏】流式处理框架-Apache Fink

《Apache Flink流处理框架核心技术与应用实践》摘要：Flink是一个分布式流处理框架，支持批流一体化处理，具有精确状态管理和事件时间支持等特性。教程涵盖Flink核心知识体系，包括编程模型、API使用、Connectors集成及监控调优。通过电商实时ETL、网络质量监控等案例，展示Flink在事件驱动型应用、数据分析管道等场景的实践价值。学习需具备Java/Scala基础，结合内存计算和检查点机制，Flink能实现TB级状态管理，保证低延迟高吞吐处理。

2025-09-12 15:55:25 1106

原创 AWS 查询 ALB access log

摘要：本文介绍了在AWS中国区为ALB开启访问日志的完整流程。首先需要创建S3桶并配置访问策略，注意不同区域（北京/宁夏）的IAM ID不同。然后通过EC2控制台编辑ALB属性，启用访问日志并指定S3存储路径。最后提供了基于Athena查询ALB日志的SQL示例，包括创建外部表的完整DDL语句和查询示例，可按域名和URL路径筛选日志数据。整个流程涵盖了从日志收集到分析的关键步骤。

2025-09-11 10:03:51 518

原创【大数据专栏】如何验证数据质量验证

数据质量验证涉及准确性、完整性、一致性、唯一性、及时性和有效性六大维度，通过需求驱动、规则驱动、统计分析、样本抽查和比对验证等方法进行检测。主流工具包括Qualitis、Datavines和DataCleaner，它们在开源许可、产品定位、规则支持、数据源连接和执行方式等方面各有特点。Qualitis深度集成WeDataSphere生态，提供平台化质量管控；Datavines强调可观测性与数据目录；DataCleaner则侧重数据分析和清洗。三者在告警机制、调度集成和异常数据处理上存在差异，企业可根据实际需

2025-09-08 16:05:58 762

原创企业级 GenAI工程化白皮书

《企业级GenAI工程化白皮书摘要》本白皮书系统阐述了企业级GenAI应用的工程化框架，重点分析RAG技术的五大实现方案及发展趋势。核心内容涵盖：主流RAG方案对比纯生成式/知识图谱/混合检索/Agent工具调用/微调模型等方案的特点与适用场景当前主流趋势为RAG+Agent+混合检索组合模式核心挑战与创新解法应对检索精度、上下文整合、多模态处理等难题提出校正型RAG、自我反思架构等新型解决方案优化向量存储、注意力机制等基础设施记忆系统最佳实践构建短期记忆（会话上下文）与长期记忆（用户画

2025-09-05 17:20:01 1136

原创【大数据专栏】大数据框架演进过程

大数据架构演进：从Hadoop到湖仓一体 Hadoop逐渐成为遗留系统，仅作为数据湖基座用于批处理。新一代架构以MPP+存算分离为核心，云原生设计（如Snowflake、Databricks）实现计算弹性、低成本存储和湖仓一体化。相比传统存算耦合架构，存算分离提升资源利用率，支持多云协同，并融合数据湖的灵活性与数仓的高性能。当前趋势聚焦统一存储层（Delta/Iceberg）、实时分析及AI协同，推动企业数字化转型。

2025-09-05 15:30:30 819

原创【大数据专栏】大数据框架-Apache Druid Overview

Druid采用分布式云友好架构，支持独立配置和扩展服务，具有高容错性。其核心服务包括：Coordinator管理数据可用性，Overlord控制数据摄取，Broker处理查询，Router路由请求，Historical存储数据，MiddleManager/Peon负责数据摄取，Indexer作为可选任务执行系统。组件故障不会立即影响其他服务，确保系统稳定性。这种模块化设计提供了灵活的集群管理能力。

2025-09-05 15:02:21 812

原创 Tmporal - Distribution Workflow

与传统流程引擎的activiti / flowable 相比，传统流程引擎基于BPMN (Business Process Model Notation) 更注重流程的可视化编排，流程的状态流转、任务触发等。而Temporal是手动编码进行流程的定义，更注重分布式情况下流程的可用性，支持infrastructure、API异常情况的重试机制。

2025-08-29 15:57:37 622

原创【ElasticSearch】ElasticSearch Quick Start

elastic/start-local: Try Elasticsearch and Kibana locallyPrerequisitesIf you don’t have Docker installed, download and install Docker Desktop for your operating system.If you’re using Microsoft Windows, then install Windows Subsystem for Linux (WSL).downlo

2025-08-20 16:46:20 177

原创【ElasticSearch】ElasticSearch Overview

回答这个问题前，先看下什么是正向索引：正向索引建立的关系是由文档->关键词的，也就是给定一篇文档，记录关键词在文档中出现的位置，通过文档来关联关键词的，这种方式在数据量小的情况下完全OK，但互联网这片大海中，文档的量及是宇宙级的，这种方式要扫描的文档驴辈子都扫不完。Lucene的原理我说白话一点，就是先把被搜索内容按照一定规则进行分词并存储，生成一个目录，然后把你输入的搜索关键词也进行分词，然后与前面生成的目录中的关键词进行匹配，如果匹配到，就可以快速定位到该被搜索内容的存储位置，从而实现搜索。

2025-08-20 16:36:00 963

原创【Kafka】Kafka Quick Start

Kafka 最初是由Linkedin 即领英公司基于Scala和 Java语言开发的分布式消息发布-订阅系统，现已捐献给Apache软件基金会。Kafka 最被广为人知的是作为一个消息队列(mq)系统存在，而事实上kafka已然成为一个流行的分布式流处理平台。其具有高吞吐、低延迟的特性，许多大数据处理系统比如storm、spark、flink等都能很好地与之集成。按照Wikipedia上的说法，kafka的核心数据结构本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”。消息系统。

2025-05-30 23:23:43 1108

原创【kafka】Kafka基本原理详解

Partition在服务器上的表现形式就是一个一个的文件夹，每个partition的文件夹下面会有多组segment文件，每组segment文件又包含.index文件、.log文件、.timeindex文件（早期版本中没有）三个文件， log文件就实际是存储message的地方，而index和timeindex文件为索引文件，用于检索消息。所以在实际的应用中，。Kafka采用的是发布订阅模式，消费者主动的去kafka集群拉取消息，与producer相同的是，消费者在拉取消息的时候也是找！

2025-05-30 23:06:07 1230

原创【Kafka】Kafka Overview

如果要降低潜在的延迟，就可以把参数值设置的小一些。跟其他与字节相关的配置参数一样，该参数指的是压缩后的消息大小，也就是说，只要压缩后的消息小于 mesage.max.bytes，那么消息的实际大小可以大于这个值。，比如我们经常回去淘宝购物，你打开淘宝的那一刻，你的登陆信息，登陆次数都会作为消息传输到 Kafka 后台，当你浏览购物的时候，你的浏览信息，你的搜索指数，你的购物爱好都会作为一个个消息传递给 Kafka 后台，然后淘宝会根据你的爱好做智能推荐，致使你的钱包从来都禁不住诱惑，那么这些生产者产生的。

2025-05-30 22:55:07 844

原创 Druid、ClickHouse、Doris、StarRocks 的区别与分析

本文对比分析了四种主流OLAP引擎Druid、ClickHouse、Doris和StarRocks的核心特性。Druid擅长实时时序数据分析，ClickHouse以单表查询性能著称，Doris提供均衡易用的分析能力，StarRocks则在复杂查询和实时更新方面表现突出。四者均采用列式存储和分布式架构，但数据模型、查询性能、更新机制和存储方式存在差异。选择时需考量业务场景：Druid适合实时监控，ClickHouse适用于日志分析，Doris满足企业级报表需求，StarRocks则胜任极速分析平台建设。技术选

2025-05-30 09:26:26 1207

原创【Kubernetes】外暴露服务方式

会在所有节点（图示中的VM）上开放一个特定端口（图示中的30007），任何发送到该端口的流量都被转发到对应服务（图示中的Service）。但它可以充当集群的入口点，它可以将路由规则整合到一个资源中，并扮演“智能路由”的角色。在云环境（例如Azure）中，该服务类型会自动创建一个外部负载均衡器。负载均衡器会分配一个外部IP，并将流量分发到服务后端的不同实例。Ingress其实并不是一种服务类型，也就是说它并不是服务(，顾名思义，集群IP。它的作用就是为了能够让其所属Pod能够。的默认类型，如果没有指定。

2025-05-12 11:19:04 571

原创【AWS专栏】AWS Network

VPCsubnetNATIGWTGWCDNNSGACLDirect Connect一文看懂 Amazon EKS 中的网络规划网络规划

2025-05-12 11:05:28 358

原创【Azure 专栏】 AKS Network

离开集群的流量被源网络地址转换(Source NetworkAddress Translated，SNAT'd)为节点的IP地址，而入站的PodIP流量则通过一些服务路由，比如负载均衡器。这意味着podIP地址“隐藏”在节点的IP地址后面。与overlay networks不同，AKS中的flat networks模型将IP地址分配给来自与AKS节点相同的Azure VNet子网的。在覆盖网络中，pods从部署AKS节点的Azure VNet子网中获得一个私有的、逻辑上独立的CIDR的IP地址。

2025-05-08 11:18:15 395

原创【Azure专栏】 Azure IAM

2025-05-06 17:53:46 108

原创【Azure专栏】Azure AKS quick start

【代码】【Azure专栏】Azure AKS quick start。

2025-05-05 17:01:51 257

原创【Azure专栏】Azure AKS 权限

Use Microsoft Entra ID and Kubernetes RBAC for clusters - Azure Kubernetes Service | Microsoft Learn Enable managed identity authentication on Azure Kubernetes Service - Azure Kubernetes Service | Microsoft Learn

2025-05-05 13:10:41 233

原创【Azure专栏】Azure AKS 监控

Monitor Azure Kubernetes Service (AKS) - Azure Kubernetes Service | Microsoft Learn

2025-05-05 13:06:00 234

原创【Azure专栏】Azure 架构中心

Azure Architecture Center - Azure Architecture Center | Microsoft LearnChoose an Azure container service - Azure Architecture Center | Microsoft Learn

2025-05-05 11:03:33 208

原创 deploy an AWS EKS cluster via terraform

Provision an EKS cluster (AWS) | Terraform | HashiCorp Developer

2025-04-25 14:59:13 149

原创 Terraform Quick Start for AWS

Terraform是Iac（Infrastructures as Code),基础设施即代码，可以帮助在任何云上实现基础架构自动化。

2025-04-25 14:34:50 236

原创 Terraform and Helm

正如我们上面概述的，也可以将 Terraform 和 Helm 结合起来，从而确定您应该使用“两者”的答案，但前提是您要部署到 Kubernetes。在此方案中，您使用 Terraform 创建运行集群的基础设施，然后调用 Helm 来部署您的应用程序。这是通过与云服务接口的提供商来创建新的托管集群，或者通过编写脚本来手动创建新的计算资源、启动 Kubernetes 控制平面和注册 worker 节点来实现的。是 Terraform 的开源版本，它扩展了 Terraform 的现有概念和产品。

2025-04-24 12:58:34 807

原创【大数据专栏】大数据框架-Apache Druid 快速开始

至少需要一台6G的服务器，在此章节你将会1.部署一个Durid服务并启动服务2.使用SQL提取数据，并查询。

2025-04-16 14:43:10 232

原创【大数据专栏】大数据框架-部署Apache Druid

Coordinator 服务主要负责区段管理和分发。更具体地说， Coordinator 服务与 Historical 服务通信，以根据配置加载或删除 Segment。Coordinator 负责加载新 Segment、删除过时的 Segment、确保 Segment 被正确（配置）次数“复制”（即加载到多个不同的 Historical 节点上）以及移动（“平衡”）段，以保持后者均匀加载。druid元数据存储在pgsql中。ZK负责集群状态和一致性。

2025-04-16 14:18:33 339

原创【大数据专栏】大数据中的数据采集

2025-04-16 13:58:58 709

原创【大数据专栏】大数据框架-Apache Druid 架构说明

Apache Druid 是一个集时间序列数据库、数据仓库和全文检索系统特点于一体的分析性数据平台。可以从消息总线流式获取数据（如 Kafka，Amazon Kinesis），或从数据湖批量加载文件（如 HDFS，Amazon S3 和其他同类数据源）。Druid 为 Clickstream，APM(应用性能管理系统)，supply chain(供应链)，网络遥测，数字营销和其他事件驱动形式的场景解锁了新的查询方式和工作流。Druid 专为实时和历史数据的快速临时查询而构建。

2025-04-16 11:27:39 837

原创【大数据专栏】大数据处理中列式数据库

在行式数据库中，尽管上述只处理了少数现有列，但系统仍然需要将来自其他现有列的数据从磁盘加载到内存中。原因是数据以称为块的块形式存储在磁盘上（通常为固定大小，例如 4 KB 或 8 KB）。块是从磁盘读取到内存的最小数据单位。当应用程序或数据库请求数据时，操作系统的磁盘 I/O 子系统会从磁盘读取所需的块。

2025-04-15 16:43:48 268

原创【大数据专栏】大数据架构

Apache Hive是一款由Facebook实现并开源建立在Hladoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言(HQL)，用于访问和分析存储在Hadoop文件中的大型数据集。presto是一个交互式查询引擎,是Facebook开源的MPP架构的OLAP查询引擎，可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎，数据量支持GB到PB字节，主要用来处理秒级查询的场景。

2025-04-03 13:17:24 624

原创【大数据专栏】大数据中的基本概念

数据湖有所不同，因为它存储来自业务线应用程序的关系数据，以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时，未定义数据结构或 Schema。这意味着您可以存储所有数据，而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析（如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习）来获得Insight。数据仓库是一个优化的数据库，用于分析来自事务系统和业务线应用程序的关系数据。数据经过了清理、丰富和转换，因此可以充当用户可信任的“单一信息源”。

2025-03-31 16:31:13 533

原创 MySQL FOR UPDATE 锁级别

MySQL FOR UPDATE 锁级别标签（空格分隔）： MySQL 表锁行锁文章目录MySQL FOR UPDATE 锁级别MySQL FOR UPDATE 锁级别结论例子无锁表锁1.事务中查询非索引字段会锁表。行锁1.事务中查询索引字段会锁该行数据。E450 i5 16g 性能测试MySQL FOR UPDATE 锁级别结论开启事务后，使用for update 会锁表,按照索...

2019-02-15 14:21:57 4968 1

原创 MySQL-事务介绍

MySQL-事务介绍标签（空格分隔）： Mysql 事务[TOC]MySQL事务ACID1.原子性（Atomcity）一个事务的最小单元，要么全部成功要么全部失败，执行的过程中是不能被打断或者执行其他操作的。2.一致性（Consistent）事务开始前和结束后，数据库的完整性约束没有被破坏。比如A向B转账，不可能A扣了钱，B却没收到，事务开始前A+B=500，事务结束后A+B不可...

2019-02-15 13:59:44 240 1

【Kubernetes】 Yaml配置文件

新手请教问题

JSP 文件下载 保存的问题

JSP 文件下载保存的问题