- 博客(7)
- 收藏
- 关注
原创 客户端服务器通信方式
每一次请求都会创建一个新的 event_stream 生成器。Flask 自带的开发服务器是阻塞式的,每个 SSE 连接都会占一个线程,不适合大规模并发。生产环境一般用 Gunicorn + gevent/eventlet 或者直接用异步框架(FastAPI/Starlette/Quart)。单一生产者 + 多客户端广播示例。
2025-09-05 03:57:50
592
原创 Dynamo, ETCD, ZK的关联
"etcd"这个名字来源于Unix目录"/etc",该目录传统上用于存储配置文件,再加上"d"表示"distributed"(分布式),体现了它作为分布式系统中的目的。
2025-08-20 07:04:01
960
原创 Kafka的边角知识
Kafka是一个分布式流处理平台(Distributed Streaming Platform),每个集群中都有一个Controller。Controller是一个特殊的broker,具备完整的 broker 功能。但因需要额外负担Controller职责,比如所以需要显著消耗资源,尤其是 CPU 和网络 I/O,因此不建议让Controller同时承担太多partition的数据处理工作。可以考虑通过配置或资源分配手动让它负载更轻(考虑Cruise Control)。
2025-08-10 01:28:06
626
原创 TiDB简介及应用
TiDB 是一款存算分离(Decoupled Compute-Storage)的开源的 NewSQL 分布式数据库,旨在结合传统关系型数据库(RDBMS)的 ACID 事务特性和 NoSQL 数据库的可扩展性,满足现代企业对海量数据存储、高并发处理以及实时分析的需求。
2025-07-29 23:26:42
642
原创 存储介质及类型的区别分析
NVMe(Non-Volatile Memory Express)是一种基于协议的SSD,专为设计。它提供极低延迟,通常在。这是因为NVMe直接通过PCIe通道与CPU通信,避免了传统的瓶颈。:我们指传统的SATA SSD。SATA SSD的延迟通常在SATA为了和传统的HDD兼容,使用相同的SATA数据线+电源,直接插入主板SATA接口。AHCI协议通过南桥中转。:机械硬盘的延迟主要来自磁头寻道时间和旋转延迟(Spinning magnetic disks)。
2025-07-26 18:51:58
808
原创 Arrow Data Format
列式存储还便于压缩,因为相似的值被存储在一起,可以通过跨多个记录进行高效的压缩和编码,实现更高的压缩比率。Arrow的内存布局设计优化了数据处理效率,特别是在并行计算和数据分析中具有显著的性能提升。:Arrow定义了一套统一的数据格式规范,使得数据可以在不同系统间无缝传递,降低了数据转换的成本和复杂性。它还支持多种编程语言和数据框架,促进了不同软件组件间的互操作性。例如:Python 用 Pandas 处理数据后,可直接将 Arrow 内存缓冲区传递给 Java 的 Spark 任务,跳过数据复制和转换。
2025-07-26 08:03:50
181
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅