数据结构与对象-简单动态字符串-优快云博客

简单动态字符串(SDS)

Redid没有使用C语言传统的字符串表示，而是自己构建了一种名为简单动态字符串(simple dynamic string，SDS)的抽象类型，并用SDS作为Redis的默认字符串表示。

SDS的定义

        struct sdsher {
            //记录buf数组中已使用字节的数量
            //等于SDS中所保存字符串的长度
            int len;
            //记录buf数组中未使用字节的数量
            int free;
            //字节数组，用于保存字符串
            char buf[];
        }

SDS遵循C语言中以空字符结尾的惯例，保存空字符的1字节不计算在SDS的len长度中，并且为所有的空字符分配额外的1字节空间，以及添加空字符串到字符末尾的操作，都是由SDS函数自动完成的。这一惯例的好处是，SDS可以直接重用部分C字符串函数库中的函数。

SDS与C的区别

根据传统，C语言使用N+1长度的字符数组来表示N长度的字符串，并且字符数组中的最后一位总是空字符'\0'。
C语言使用这种简单的字符串表示，并不能符合Redis在安全、效率以及功能方面的要求。接下来的内容将详细对比C字符串和SDS的区别，并说明SDS比C字符串更适用Redis的原因。

常数复杂度获取字符串长度

因为C字符串并不记录自身长度，所以在获取字符串长度时，需要遍历整个字符串，对遇到的字符进行计数，直到遇到结尾的空字符为止。这个操作的时间复杂度为O(N)。
和C字符串不同，SDS在len属性中记录了字符串的长度，所以获取一个字符串的长度的时间复杂度为O(N)。这确保了获取字符串长度的工作不会成为Redis的性能瓶颈。

杜绝缓冲区溢出

        除了获取字符串长度时的复杂度高以外，C字符串不记录自身长度带来的另一个问题是容易造成缓冲区溢出。
        例如，现有两个字符串S1和S2，S1保存字符串Redis，S2保存字符串MongoDB，它们在内存中存入的位置相邻，此时存储为：
S1 S2
'R' 'e' 'd' 'i' 's' '\0' 'M' 'o' 'n' 'g' 'o' 'D' 'B' '\0'
        若此时使用strcat(S1," Cluster")为S1字符串后追加内容Cluster，但在执行操作前忘记对S1重新分配内存，那么在strcat函数执行后，S1的数据将溢出到S2所在的空间内，导致S2的数据内容被意外修改
S1 S2
'R' 'e' 'd' 'i' 's' ' ' 'C' 'l' 'u' 's' 't' 'e' 'r' '\0'
        与C字符串不同，SDS的空间分配策略杜绝了缓冲区溢出的可能性：当API需要对SDS中的内容做修改时，会先检查SDS所需内存是否充足，如果不充足，则会先扩展内存，再执行修改操作。

减少修改字符串带来的内存重分配次数

空间预分配

        空间预分配用于优化字符串增长操作，当SDS的API对一个SDS进行修改，并且需要对SDS进行空间分配时，程序不仅会扩充SDS增长所需的空间，还会额外分配未使用空间。
        如果在修改SDS之后，SDS的长度(即len的值)小于1MB，那么程序分配和len相同的未使用空间，这时SDS的len属性与free属性的值相同；
        如果在修改SDS之后，SDS的长度(即len的值)大于1MB，那么程序会分配1MB的未使用空间；
        通过空间预分配策略，Redis可以减少对连续增长字符串操作时的内存重分配次数，在增加内容时，Redis会先检查free空间是否充足，如果充足则直接使用。这种做法将连续增加N次字符串所需的内存分配次数从必定N次变为最大N次。

惰性释放空间

惰性释放空间用于优化字符串的缩减操作，当SDS的API需要缩短SDS保存的字符串时，程序并不立即使用内存重分配来回收缩短的空间，而是将该部分空间使用free属性记录，以便后续使用。
与此同时，SDS也提供了相应的API，让我们在有需要时，真正释放SDS的未使用空间，所以不用担心惰性释放空间造成内存浪费。

二进制安全

C字符串中保存的字符必须符合某种编码(比如ASCII)，并且除了字符串末尾外，字符串内不能包含空字符，否则最先被程序识别的空字符会被认为是字符串结尾。这些限制使得C字符串只能保存文本数据，而不能保存图片、音频、视频和压缩文件等这样的二进制数据。
这也是Redis中的buf称为字节数组的原因，因为它存储的并不是字符，而是存储一组二进制数据。使用SDS来保存之前提到的二进制数据就没有问题，因为SDS是使用len计算长度而不是通过空字符判断。

兼容部分C字符串函数

虽然SDS的API都是二进制安全的，但它们同样遵循C字符串以空字符结尾的惯例：这些API总会将SDS保存的数据末尾设置空字符，并且为buf数组分配空间时会多分配一个字节来容纳这个空字符。这是为了让保存这些文本数据的SDS可以重用一部分<string.h>的函数，避免了不必要的代码重复

SDS主要操作API

函数	作用	时间复杂度
sdsnew	创建一个包含给定C字符串的SDS	O(N)，N为给定C字符串的长度
sdsempty	创建一个空SDS	O(1)
sdsfree	释放给定的SDS	O(N)，N为给定SDS的长度
sdslen	返回SDS的已使用空间	O(1)，可以通过SDS的len属性获取
sdsavail	返回SDS的未使用空间	O(1)，可以通过SDS的free属性获取
sdsdup	创建一个给定SDS的副本(copy)	O(N)，N为给定SDS的长度
sdsclear	清空SDS保存的字符串内容	O(1)，原因是惰性释放空间策略
sdscat	将给定C字符串拼接到SDS字符串末尾	O(N)，N为给定C字符串的长度
sdscatsds	将给定SDS字符串拼接到另一SDS字符串末尾	O(N)，N为给定SDS字符串的长度
sdscpy	将给定C字符串复制到SDS字符串中，覆盖SDS原有字符串	O(N)，N为给定C字符串的长度
sdsgrowzero	用空字符将SDS扩充到指定长度	O(N)，N为新增的长度
sdsrange	保留SDS给定区间的内容，不在区间内的将被清空	O(N)，N为保留的长度
sdstrim	接收一个SDS和一个C字符串，移除SDS中所有C字符串中出现的字符	O(N^2)，N为C字符串的长度
sdscmp	对比两个SDS是否相同	O(N)，N为较短SDS的长度