redis-简单动态字符串SDS

Redis SDS详解

最新推荐文章于 2024-08-15 21:52:23 发布

原创最新推荐文章于 2024-08-15 21:52:23 发布 · 168 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#redis

redis 专栏收录该内容

14 篇文章

订阅专栏

redis-简单动态字符串SDS

SDS定义

Redis 没有直接使用 C 语言传统的字符串表示（以空字符结尾的字符数组，以下简称 C 字符串），而是自己构建了一种名为简单动态字符串（simple dynamic string，SDS）的抽象类型，并将 SDS 用作 Redis 的默认字符串表示。
每个 sds.h/sdshdr 结构表示一个 SDS 值：
```
struct sdshdr {

    // 记录 buf 数组中已使用字节的数量
    // 等于 SDS 所保存字符串的长度
    int len;

    // 记录 buf 数组中未使用字节的数量
    int free;

    // 字节数组，用于保存字符串
    char buf[];

};
```
$digraph { label = "\n 图 2-1 SDS 示例"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 0 | len \n 5 | buf"]; buf [label = "{ 'R' | 'e' | 'd' | 'i' | 's' | '\0' }"]; // sdshdr:buf -> buf; }$

图 2-1 展示了一个 SDS 示例：
- free 属性的值为 0 ，表示这个 SDS 没有分配任何未使用空间。
- len 属性的值为 5 ，表示这个 SDS 保存了一个五字节长的字符串。
- buf 属性是一个 char 类型的数组，数组的前五个字节分别保存了 'R' 、 'e' 、 'd' 、 'i' 、 's' 五个字符，而最后一个字节则保存了空字符 '\0' 。
$digraph { label = "\n 图 2-2 带有未使用空间的 SDS 示例"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 5 | len \n 5 | buf"]; buf [label = "{ 'R' | 'e' | 'd' | 'i' | 's' | '\0' | | | | | }"]; // sdshdr:buf -> buf; }$

图 2-2 展示了另一个 SDS 示例:
- 这个 SDS 和之前展示的 SDS 一样，都保存了字符串值 "Redis" 。
- 这个 SDS 和之前展示的 SDS 的区别在于，这个 SDS 为 buf 数组分配了五字节未使用空间，所以它的 free 属性的值为 5 （图中使用五个空格来表示五字节的未使用空间）

比起C字符串，SDS的优点

C 字符串	SDS
获取字符串长度的复杂度为 O(N) 。	获取字符串长度的复杂度为 O(1) 。
API 是不安全的，可能会造成缓冲区溢出。	API 是安全的，不会造成缓冲区溢出。
修改字符串长度 `N` 次必然需要执行 `N` 次内存重分配。	修改字符串长度 `N` 次最多需要执行 `N` 次内存重分配。
只能保存文本数据。	可以保存文本或者二进制数据。
可以使用所有 `<string.h>` 库中的函数。	可以使用一部分 `<string.h>` 库中的函数。

Redis 只会使用 C 字符串作为字面量，在大多数情况下， Redis 使用 SDS （Simple Dynamic String，简单动态字符串）作为字符串表示。
- 常数复杂度获取字符串长度
  
  因为 C 字符串并不记录自身的长度信息，所以为了获取一个 C 字符串的长度，程序必须遍历整个字符串，对遇到的每个字符进行计数，直到遇到代表字符串结尾的空字符’\0’为止，这个操作的复杂度为 O(N) 。
  
  和 C 字符串不同，因为 SDS 在 len 属性中记录了 SDS 本身的长度，所以获取一个 SDS 长度的复杂度仅为 O(1) 。
  
  $digraph { label = "\n 图 2-5 五字节长的 SDS"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 0 | len \n 5 | buf"]; buf [label = "{ 'R' | 'e' | 'd' | 'i' | 's' | '\0' }"]; // sdshdr:buf -> buf; }$
  
  对于图 2-5 所示的 SDS 来说，程序只要访问 SDS 的 len 属性，就可以立即知道 SDS 的长度为 5 字节。
- 杜绝缓冲区溢出
  
  C 字符串不记录自身长度带来的另一个问题是容易造成缓冲区溢出（buffer overflow）。
  
  举个例子， <string.h>/strcat 函数可以将 src 字符串中的内容拼接到 dest 字符串的末尾：
```
char *strcat(char *dest, const char *src);
```
  举个例子，假设程序里有两个在内存中紧邻着的 C 字符串 s1 和 s2 ，其中 s1 保存了字符串 "Redis" ，而 s2 则保存了字符串 "MongoDB" ，如图 2-7 所示。
  
  $digraph { label = "\n 图 2-7 在内存中紧邻的两个 C 字符串"; rankdir = TB; // node [shape = record]; memory [label = " ... | 'R' | 'e' | 'd' | 'i' | 's' | '\0' | 'M' | 'o' | 'n' | 'g' | 'o' | 'D' | 'B' | '\0' | ... "]; // node [shape = plaintext]; s1 -> memory:s1; s2 -> memory:s2; }$
  
  如果一个程序员决定通过执行：
```
strcat(s1, " Cluster");
```
  将 s1 的内容修改为 "Redis Cluster" ，但粗心的他却忘了在执行 strcat 之前为 s1 分配足够的空间，那么在 strcat 函数执行之后， s1 的数据将溢出到 s2 所在的空间中，导致 s2 保存的内容被意外地修改，如图 2-8 所示。
  
  $digraph { label = "\n 图 2-8 s1 的内容溢出到了 s2 所在的位置上"; rankdir = TB; // node [shape = record]; memory [label = " ... | 'R' | 'e' | 'd' | 'i' | 's' | ' ' | 'C' | 'l' | 'u' | 's' | 't' | 'e' | 'r' | '\0' | ... "]; // node [shape = plaintext]; s1 -> memory:s1; s2 -> memory:s2; }$
  
  SDS 的空间分配策略完全杜绝了发生缓冲区溢出的可能性：当 SDS API 需要对 SDS 进行修改时， API 会先检查 SDS 的空间是否满足修改所需的要求，如果不满足的话， API 会自动将 SDS 的空间扩展至执行修改所需的大小，然后才执行实际的修改操作，所以使用 SDS 既不需要手动修改 SDS 的空间大小，也不会出现前面所说的缓冲区溢出问题。
  
  比如说，如果我们执行：
```
sdscat(s, " Cluster");
```
  其中 SDS 值 s 如图 2-9 所示，那么 sdscat 将在执行拼接操作之前检查 s 的长度是否足够，在发现 s 目前的空间不足以拼接 " Cluster" 之后， sdscat 就会先扩展 s 的空间，然后才执行拼接 " Cluster" 的操作，拼接操作完成之后的 SDS 如图 2-10 所示。
  
  $digraph { label = "\n 图 2-9 sdscat 执行之前的 SDS"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 0 | len \n 5 | buf"]; buf [label = "{ 'R' | 'e' | 'd' | 'i' | 's' | '\0' }"]; // sdshdr:buf -> buf; }$
  
  $digraph { label = "\n 图 2-10 sdscat 执行之后的 SDS"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 13 | len \n 13 | buf"]; buf [label = "{ 'R' | 'e' | 'd' | 'i' | 's' | ' ' | 'C' | 'l' | 'u' | 's' | 't' | 'e' | 'r'| '\0' | ... }"]; // sdshdr:buf -> buf; }$
  
  注意图 2-10 所示的 SDS ： sdscat 不仅对这个 SDS 进行了拼接操作，它还为 SDS 分配了 13 字节的未使用空间，并且拼接之后的字符串也正好是 13 字节长，这种现象既不是 bug 也不是巧合，它和 SDS 的空间分配策略有关，接下来的小节将对这一策略进行说明。
- 减少修改字符串长度时所需的内存重分配次
  
  C 字符串的长度和底层数组的长度之间存在着这种关联性，每次增长或者缩短一个 C 字符串，程序都总要对保存这个 C 字符串的数组进行一次内存重分配操作：
  - 如果程序执行的是增长字符串的操作，比如拼接操作（append），那么在执行这个操作之前，程序需要先通过内存重分配来扩展底层数组的空间大小 —— 如果忘了这一步就会产生缓冲区溢出。
  - 如果程序执行的是缩短字符串的操作，比如截断操作（trim），那么在执行这个操作之后，程序需要通过内存重分配来释放字符串不再使用的那部分空间 —— 如果忘了这一步就会产生内存泄漏。
  为了避免 C 字符串的这种缺陷， SDS 通过未使用空间解除了字符串长度和底层数组长度之间的关联：在 SDS 中， buf 数组的长度不一定就是字符数量加一，数组里面可以包含未使用的字节，而这些字节的数量就由 SDS 的 free 属性记录。
  
  通过未使用空间， SDS 实现了空间预分配和惰性空间释放两种优化策略。
  - 空间预分配
    - 当 SDS 的 API 对一个 SDS 进行修改，并且需要对 SDS 进行空间扩展的时候，程序不仅会为 SDS 分配修改所必须要的空间，还会为 SDS 分配额外的未使用空间。其中，额外分配的未使用空间数量由以下公式决定：
      - 如果对 SDS 进行修改之后， SDS 的长度（也即是 len 属性的值）将小于 1 MB ，那么程序分配和 len 属性同样大小的未使用空间，这时 SDS len 属性的值将和 free 属性的值相同。举个例子，如果进行修改之后， SDS 的 len 将变成 13 字节，那么程序也会分配 13 字节的未使用空间， SDS 的 buf 数组的实际长度将变成 13 + 13 + 1 = 27 字节（额外的一字节用于保存空字符）。
      - 如果对 SDS 进行修改之后， SDS 的长度将大于等于 1 MB ，那么程序会分配 1 MB 的未使用空间。举个例子，如果进行修改之后， SDS 的 len 将变成 30 MB ，那么程序会分配 1 MB 的未使用空间， SDS 的 buf 数组的实际长度将为 30 MB + 1 MB + 1 byte 。
      举个例子，对于图 2-11 所示的 SDS 值 s 来说，如果我们执行：
```
sdscat(s, " Cluster");
```
      那么 sdscat 将执行一次内存重分配操作，将 SDS 的长度修改为 13 字节，并将 SDS 的未使用空间同样修改为 13 字节，如图 2-12 所示。
      
      $digraph { label = "\n 图 2-11 执行 sdscat 之前的 SDS"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 0 | len \n 5 | buf"]; buf [label = "{ 'R' | 'e' | 'd' | 'i' | 's' | '\0' }"]; // sdshdr:buf -> buf; }$
      
      $digraph { label = "\n 图 2-12 执行 sdscat 之后的 SDS"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 13 | len \n 13 | buf"]; buf [label = "{ 'R' | 'e' | 'd' | 'i' | 's' | ' ' | 'C' | 'l' | 'u' | 's' | 't' | 'e' | 'r'| '\0' | ... }"]; // sdshdr:buf -> buf; }$
      
      如果这时，我们再次对 s 执行：
```
sdscat(s, " Tutorial");
```
      那么这次 sdscat 将不需要执行内存重分配：因为未使用空间里面的 13 字节足以保存 9 字节的 " Tutorial" ，执行 sdscat 之后的 SDS 如图 2-13 所示。
      
      $digraph { label = "\n 图 2-13 再次执行 sdscat 之后的 SDS"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 4 | len \n 22 | buf"]; //buf [label = "{ 'R' | 'e' | 'd' | 'i' | 's' | ' ' | 'C' | 'l' | 'u' | 's' | 't' | 'e' | 'r'| ' ' | 'T' | 'u' | 't' | 'o' | 'r' | 'i' | 'a' | 'l' | '\0' | ... }"]; buf [label = "{ 'R' | 'e' | 'd' | 'i' | 's' | ... | ' ' | 'T' | 'u' | 't' | 'o' | 'r' | 'i' | 'a' | 'l' | '\0' | ... }"]; // sdshdr:buf -> buf; }$
      
      在扩展 SDS 空间之前， SDS API 会先检查未使用空间是否足够，如果足够的话， API 就会直接使用未使用空间，而无须执行内存重分配。
      
      通过这种预分配策略， SDS 将连续增长 N 次字符串所需的内存重分配次数从必定 N 次降低为最多 N 次。
  - 惰性空间释放
    - 当 SDS 的 API 需要缩短 SDS 保存的字符串时，程序并不立即使用内存重分配来回收缩短后多出来的字节，而是使用 free 属性将这些字节的数量记录起来，并等待将来使用。
      
      比如对于图 2-14 所示的 SDS 值 s 来说，执行：
```
sdstrim(s, "XY");   // 移除 SDS 字符串中的所有 'X' 和 'Y'
```
      会将 SDS 修改成图 2-15 所示的样子。
      
      $digraph { label = "\n 图 2-14 执行 sdstrim 之前的 SDS"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 0 | len \n 11 | buf"]; buf [label = " { 'X' | 'Y' | 'X' | 'X' | 'Y' | 'a' | 'b' | 'c' | 'X' | 'Y' | 'Y' | '\0' } "]; // sdshdr:buf -> buf; }$
      
      $digraph { label = "\n 图 2-15 执行 sdstrim 之后的 SDS"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 8 | len \n 3 | buf"]; buf [label = " { 'a' | 'b' | 'c' | '\0' | <1> | <2> | <3> | <4> | <5> | <6> | <7> | <8> } "]; // sdshdr:buf -> buf; }$
      
      注意执行 sdstrim 之后的 SDS 并没有释放多出来的 8 字节空间，而是将这 8 字节空间作为未使用空间保留在了 SDS 里面，如果将来要对 SDS 进行增长操作的话，这些未使用空间就可能会派上用场。
      
      举个例子，如果现在对 s 执行：
```
sdscat(s, " Redis");
```
      那么完成这次 sdscat 操作将不需要执行内存重分配：因为 SDS 里面预留的 8 字节空间已经足以拼接 6 个字节长的 " Redis" ，如图 2-16 所示。
      
      $digraph { label = "\n 图 2-16 执行 sdscat 之后的的 SDS"; rankdir = LR; node [shape = record]; // sdshdr [label = "sdshdr | free \n 2 | len \n 9 | buf"]; buf [label = " { 'a' | 'b' | 'c' | ' ' | 'R' | 'e' | 'd' | 'i' | 's' | '\0' | <1> | <2> } "]; // sdshdr:buf -> buf; }$
      
      通过惰性空间释放策略， SDS 避免了缩短字符串时所需的内存重分配操作，并为将来可能有的增长操作提供了优化。
      
      与此同时， SDS 也提供了相应的 API ，让我们可以在有需要时，真正地释放 SDS 里面的未使用空间，所以不用担心惰性空间释放策略会造成内存浪费。
- 二进制安全
  - C 字符串中的字符必须符合某种编码（比如 ASCII），并且除了字符串的末尾之外，字符串里面不能包含空字符，否则最先被程序读入的空字符将被误认为是字符串结尾 —— 这些限制使得 C 字符串只能保存文本数据，而不能保存像图片、音频、视频、压缩文件这样的二进制数据。
  - 为了确保 Redis 可以适用于各种不同的使用场景， SDS 的 API 都是二进制安全的（binary-safe）：所有 SDS API 都会以处理二进制的方式来处理 SDS 存放在 buf 数组里的数据，程序不会对其中的数据做任何限制、过滤、或者假设 —— 数据在写入时是什么样的，它被读取时就是什么样。
    
    这也是我们将 SDS 的 buf 属性称为字节数组的原因 —— Redis 不是用这个数组来保存字符，而是用它来保存一系列二进制数据。
  - 通过使用二进制安全的 SDS ，而不是 C 字符串，使得 Redis 不仅可以保存文本数据，还可以保存任意格式的二进制数据。
- 兼容部分 C 字符串函数