跳表的介绍与实现
一.跳表作用和目的
跳表作为一种数据结构通常用于取代平衡树。平衡树可以用于表示抽象的数据类型如字典和有序链表,它通过树旋转(Tree Rotation)操作强制使树结构保持平衡来保证节点搜索的效率。在数据为随机插入的情况下,平衡树性能表现良好;但数据为顺序插入或者需要删除节点的情况下,平衡树的性能就会有些糟糕。
跳表可以作为平衡树的一种替代选择。它使用随机的平衡策略取代平衡树严格的强制的树平衡策略。因此它具有更简单有效的插入/删除方法以及更快的搜索速度。
二.跳表的原理
假设有一个链表,我们要查找某个节点,则我们需要逐个的查找链表的每个节点。
如果链表是有序的,并且每隔一个节点都有一个指向其前面2个位置节点的指针,那我们只需要最多查找⌈N/2⌉个节点。
如果再每隔3个节点就有指向其前面4个位置节点的指针,那么我们就只需要查找不超过⌈N/4⌉+2个节点。
也即如果每个(2^i)位置的节点都有指向其前面2^i个位置节点的指针,则查找某个节点的次数可以下降到⌈log2^n⌉次(只是指针数会变为之前的双倍)
这种数据结构可以用于快速的查找,只是插入和删除不太容易实现。如果不再依照节点的位置,而是采取一种随机的策略来决定节点是否具有额外的指向前面节点的指针呢?
假设拥有k个前向指针的节点我们称之为k等级节点,在节点被分配出来的时候,我们通过随机策略(按照一定的概率)来决定节点的等级(也即有几个前向指针),节点的第i个指针也不再指向其前面2^i个位置的节点,而是指向等级i的下个节点。这样,插入和删除节点都只需要做很少的改动,其整体的效果却和上面所描述的类似。
由于这种数据结构是一个链表带有额外的指针,在链表的节点间跳跃,因此,原作者称其为跳跃链表(skip lists)。
三.实现与算法
1)节点等级
随机生成节点等级的算法有很多种,这里介绍原作者采用的算法:
a)首先确定一个概率p(1/2、1/4等),用于确定节点是否需要有下一个等级。
b)就跟投骰子一样,节点有1/2或1/4的概率获得下一个等级,如果是,则节点的等级k=k+1,如果不是,则节点的等级为k,至此结束。
c)如此重复循环。
但这里会有一个问题,某些节点的等级k可能会很大(一直获得下一个等级,虽然概率极低),这在算法的原理上没有问题(除了有极少的性能损耗),但在工程的实现上会相当麻烦,因此,在实际的实现当中,通常会设置一个最高等级(MAX_LEVEL),并且还会有一个当前链表最大等级,搜索的时候从当前最大等级开始。
关于p和MAX_LEVEL取值,原作者推荐的p值是1/4或1/2,MAX_LEVEL可根据所选的p及链表所含的最多元素个数n通过公式logp^n所得。
2)初始化
初始化的时候,我们会分配一个NIL节点(最终节点)并将其key值设为最大int值,还会分配一个链表初始节点,其header拥有MAX_LEVEL个前向指针,所有的前向指针都初始化成指向NIL节点(表明链表中暂无节点)。
3)搜索算法
通常,我们从当前链表的最大等级的header开始搜索,如果同一等级节点的key值小于搜索值,则搜索相同等级的后续节点,否则,进入到下一个等级节点继续搜索。直到搜索到相应的值或已到最低等级而后续节点的值又大于当前搜索值(表明搜索已失败)为止。
4)插入与删除
插入和删除节点只需要在搜索的基础上再进行简单的插入和删除操作,只是需要注意两个操作当中前向指针关系的处理,以及增加和减少链表等级后及时更新当前最大等级的值。插入的过程可见如下示意图:
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#define MAX_NUM_OF_LEVEL 16
#define MAX_LEVEL (MAX_NUM_OF_LEVEL-1)
#define MAX_INT 0x7fffffff /* max integer */
#define MAX_BITS 32 /* 32-bit integers */
typedef struct _NODE {
int key;
int value;
struct _NODE **forward; /* variable sized array of forward pointers */
} NODE;
typedef struct _SKIPLIST {
int level; /* maximum level of the list */
struct _NODE *header; /* pointer to header */
} SKIPLIST;
NODE *NIL;
int RANDOM_BITS;
int BITS_LEFT;
int random()
{
srand(time(NULL));
return rand();
}
NODE *alloc_node_of_level(int level)
{
NODE *new_node;
new_node = (NODE *)malloc(sizeof(NODE)+(level*sizeof(struct _NODE *)));
return new_node;
}
init()
{
NIL = alloc_node_of_level(0);
NIL->key = MAX_INT;
RANDOM_BITS = random();
BITS_LEFT = MAX_BITS;
}
int random_level()
{
int level = 0;
int b;
do {
b = RANDOM_BITS&3; /* p=1/4(25%) */
if (!b)
level++;
RANDOM_BITS >>= 2;
BITS_LEFT -= 2;
if (BITS_LEFT == 0) { /* re-generate random bits */
RANDOM_BITS = random();
BITS_LEFT = MAX_BITS;
}
} while (!b);
return (level > MAX_LEVEL ? MAX_LEVEL : level);
}
SKIPLIST *new_list()
{
SKIPLIST *l;
int i;
l = (SKIPLIST *)malloc(sizeof(SKIPLIST));
l->level = 0;
l->header = alloc_node_of_level(MAX_LEVEL);
for (i = 0; i < MAX_LEVEL; i++)
l->header->forward[i] = NIL;
return l;
}
void free_list(SKIPLIST *l)
{
NODE *p, *q;
p = l->header;
while (p != NIL) {
q = p->forward[0];
free(p);
p = q;
}
free(l);
}
int insert(SKIPLIST *l, int key, int value)
{
int k;
NODE *update[MAX_LEVEL], *p, *q;
p = l->header;
k = l->level;
/* search */
while (k >= 0) {
while (q = p->forward[k], q->key < key) p = q;
update[k] = p;
k--;
}
if (q->key == key) { /* same key already exists */
q->value = value;
return 1;
}
/* insert new node */
k = random_level();
if (k > l->level) {
k = ++l->level;
update[k] = l->header;
}
q = alloc_node_of_level(k);
q->key = key;
q->value = value;
while (k >= 0) {
p = update[k];
q->forward[k] = p->forward[k];
p->forward[k] = q;
k--;
}
return 0;
}
int delete(SKIPLIST *l, int key)
{
int k, m;
NODE *update[MAX_LEVEL], *p, *q;
p = l->header;
k = m = l->level;
/* search */
while (k >= 0) {
while (q = p->forward[k], q->key < key) p = q;
update[k] = p;
k--;
}
if (q->key != key) { /* key not exists */
/* NOT FOUND */
return 1;
}
k = 0;
while (k <= m && (p = update[k])->forward[k] == q) {
p->forward[k] = q->forward[k];
k++;
}
free(q);
while (l->header->forward[m] == NIL && m > 0)
m--;
l->level = m;
return 0;
}
int search(SKIPLIST *l, int key, int &value)
{
int k;
NODE *p, *q;
p = l->header;
k = l->level;
/* search */
while (k >= 0) {
while (q = p->forward[k], q->key < key) p = q;
k--;
}
if (q->key != key) {
/* NOT FOUND */
return -1;
}
*value = value;
return 0;
}
/* TESTS */
int main(int argc, char *argv[])
{
SKIPLIST *l;
int i, k;
int keys[65536];
int v;
init();
l = new_list();
for (k = 0; k < 65536; k++) {
keys[k] = random();
insert(l, keys[k], keys[k]);
}
for (i = 0; i < 4; i++) {
for(k = 0; k < 65536; k++) {
if (!search(l, keys[k], &v))
printf("error in search #%d,#%d\n", i, k);
if (v != keys[k])
printf("search returned wrong value\n");
}
for(k = 0; k < 65536; k++) {
if (!delete(l, keys[k]))
printf("error in delete\n");
keys[k] = random();
insert(l, keys[k], keys[k]);
}
}
free_list(l);
return 0;
}