Graphite项目中的Whisper数据库深度解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00035/article/details/148488368

Graphite项目中的Whisper数据库深度解析

graphite-web A highly scalable real-time graphing system 项目地址: https://gitcode.com/gh_mirrors/gr/graphite-web

Whisper数据库概述

Whisper是Graphite项目中的核心时间序列数据库组件，采用固定大小的设计架构，专门用于高效存储和检索随时间变化的数值数据。与传统的RRD（Round-Robin Database）类似但具有独特优势，Whisper实现了数据从高精度到低精度的自动降级存储机制。

核心特性解析

数据结构设计

Whisper以双精度浮点数（big-endian格式）存储数据点，每个值都附带UNIX时间戳（1970年1月1日以来的秒数）。这种设计使得数据可以：

精确记录每个时间点的数值
支持特殊数值如无穷大(inf)的存储
保持与Python浮点数处理逻辑的一致性

多级归档机制

Whisper最显著的特点是它的多级归档系统：

层级关系：数据库包含一个或多个归档，按分辨率从高到低、保留时间从短到长排列
精度要求：低分辨率归档的精度必须是高分辨率归档的整数倍（如60秒→300秒有效，180秒→600秒无效）
存储特性：所有归档存储重叠时间段的数据，总保留时间由最长保留期的归档决定

数据聚合策略

当数据从高精度归档向低精度归档传递时，Whisper提供多种聚合方法：

| 聚合方法 | 说明 | |----------|--------------------| | average | 默认方法，取平均值 | | sum | 求和 | | last | 取最后一个值 | | max | 取最大值 | | min | 取最小值 |

关键技术实现

存储与检索机制

写入过程：

新数据点同时写入所有归档
高精度归档存储原始值
低精度归档存储聚合后的值

读取过程：

根据时间范围自动选择能完整覆盖的最精确归档
时间范围跨归档时自动使用低分辨率数据

文件格式详解

Whisper采用二进制文件格式，结构如下：

Whisper文件
├── 头部
│   ├── 元数据(聚合类型,最大保留时间,xFilesFactor,归档数量)
│   └── 归档信息(偏移量,点间隔秒数,点数)
└── 数据区
    └── 归档数据
        └── 数据点(时间戳,值)

使用Python的struct格式进行编码：

元数据：!2LfL
归档信息：!3L
数据点：!Ld

与RRD的对比分析

| 特性 | Whisper | RRD | |---------------------|----------------------------|-------------------------| | 历史数据回填 | 支持 | 不支持 | | 不规则更新处理 | 优化支持 | 有限支持 | | 更新间隔要求 | 必须匹配最高精度归档 | 更灵活 | | 数据写入时机 | 立即写入 | 延迟聚合后写入 | | 实现语言 | Python | C |