第11章散列表

最新推荐文章于 2023-12-05 21:08:37 发布

江湖乱飘

最新推荐文章于 2023-12-05 21:08:37 发布

阅读量1.2k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：《算法导论》（原书第3版）练习和思考题答案

本文链接：https://blog.youkuaiyun.com/sinat_41619658/article/details/84562736

《算法导论》（原书第3版）练习和思考题答案专栏收录该内容

14 篇文章

订阅专栏

本文探讨了直接寻址表和散列表的概念，包括最大元素查找、位向量表示、不同散列方法如开放寻址法和链接法，以及散列函数设计。详细分析了各种操作的时间复杂度和散列表的装载因子对性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

11.1 直接寻址表

11.1-1

假设一动态集合S用一个长度为m的直接寻址表T来表示。给出一个查找S中最大元素的过程。

DIRECT-ADDRESS-MAXIMUM(T)
    max = -∞
    for i = 1 to m
        if T[i] ≠ NIL and T[i].key > max
            max = T[i].key
            j = i
    return T[j]

过程在最坏情况下的运行时间是 $O(m)$ 。

11.1-2

用一个位向量来表示一个包含不同元素（无卫星数据）的动态集合。字典操作的运行时间应为 $O(1)$ 。

DIRECT-ADDRESS-SEARCH(T, k)
    if T[k] == 0
        return NIL
    else return k

DIRECT-ADDRESS-INSERT(T, k)
    T[k] = 1

DIRECT-ADDRESS-DELETE(T, k)
    T[k] = 0

11.1-3

实现一个直接寻址表，表中各元素的关键字不必都不相同，且各元素可以有卫星数据。所有三种字典操作（INSERT、DELETE和SEARCH）的运行时间为 $O(1)$ 。（DELETE要处理的是被删除对象的指针变量，而不是关键字。）

DIRECT-ADDRESS-SEARCH(T, k)
    return T[k]

DIRECT-ADDRESS-INSERT(T, x)
    x.next = T[x.key]
    T[x.key] = x

DIRECT-ADDRESS-DELETE(T, x)
    a = T[x.key]
    b = NIL
    while a ≠ x
        b = a
        a = a.next
    if b == NIL
        T[x.key] = x.next
    else b.next = x.next

11.2 散列表

11.2-1

对关键字k和l，定义指示器随机变量 $X_{kl}=I\{h(k)=h(l)\}$ 。在简单均匀散列的假设下，有 $Pr\{h(k)=h(l)\}=1/m$ ，从而根据引理5.1，有 $E[X_{kl}]=1/m$ 。于是，集合{{k，l}：k≠l，且h(k)=h(l)}基的期望值是 $E[X]=\sum _{k=1}^{n}{\sum _{l=k+1}^{n}{\frac{1}{m}}}=\sum _{k=1}^{n}{\frac{n-k}{m}}=\frac{n(n-1)}{m}$ 。

11.2-2

对于一个用链接法解决冲突的散列表，说明将关键字5，28，19，15，20，33，12，17，10插入到该表中的过程。设该表中有9个槽位，并设其散列函数为 $h(k)=k\mod9$ 。

11.2-3

Marley教授的改动对成功查找、不成功查找、插入和删除操作的运行时间的影响：

成功查找操作的运行时间仍然为 $\Theta (1+\alpha )$ 。
不成功查找操作的运行时间是改动前的一半，但仍然为 $\Theta (1+\alpha )$ 。
插入操作的运行时间由 $O(1)$ 变成 $O(1+\alpha )$ 。
删除操作的运行时间仍然为 $O(1)$ 。

11.2-4

该空闲链表需要是双链表。

CHAINED-HASH-ALLOCATE(T, k)
    T[k].flag = 1
    if T[k].prev ≠ NIL
        T[k].prev.next = T[k].next
    else T.free = T[k].next
    if T[k].next ≠ NIL
        T[k].next.prev = T[k].prev

CHAINED-HASH-DEALLOCATE(T, k)
    T[k].flag = 0
    if T.free ≠ NIL
        T[k].prev = T.free.prev
        T.free.prev = T[k]
    T[k].next = T.free
    T.free = T[k]

CHAINED-HASH-INSERT(T, x)
    if T[h(x.key)].flag == 0
        CHAINED-HASH-ALLOCATE(T, h(x.key))
        T[h(x.key)] = x
    else insert x at the head of list T[h(x.key)]

CHAINED-HASH-SEARCH(T, k)
    if T[h(x.key)].flag == 0
        return NIL
    else search for an element with key k in list T[h(k)]

CHAINED-HASH-DELETE(T, x)
    if x.prev == NIL and x.next == NIL
        CHAINED-HASH-DEALLOCATE(T, h(x.key))
    else if x.prev != NIL and x.next == NIL
        x.prev.next = x.next
    else if x.prev == NIL and x.next != NIL
        T[h(x.key)] = x.next
        x.next.prev = x.prev
    else delete x from the list T[h(x.key)]

11.2-5

证明：因为 $\left | U \right |>nm$ ，所以当将全域U中的所有关键字存储到一个大小为m的散列表中时，每个槽位中至少有n个关键字。因此，U中有一个大小为n的子集，其由散列到同一槽位中的所有关键字构成，使得链接法散列的查找时间最坏情况下为 $\Theta (n)$ 。

11.2-6

因为 $\alpha =n/m$ ，最长链的长度为L，所以 $L\geqslant \alpha\Rightarrow L\cdot (1+1/\alpha )\geqslant \alpha (1+1/\alpha )=1+\alpha$ 。根据定理11.2，从散列表的所有关键字中均匀随机地选择某一元素并返回该关键字的期望时间为 $\Theta (1+\alpha )$ ，也即 $O(L\cdot (1+1/\alpha ))$ 。

11.3 散列函数

11.3.1 除法散列法

11.3.2 乘法散列法

11.3-1

在表中查找具有给定关键字的元素时，先计算给定关键字的散列值，然后将该散列值与链表中每一个元素的散列值进行比较，相等的即是要找的元素。

11.3-2

设字符串表示成以128为基数的数为 $k=a_{1}a_{2}...a_{r}$ ，则 $h(k)=(\sum _{i=1}^{r}{a_{i}128^{r-i}})\mod m=[\sum _{i=1}^{r}{(a_{i}\mod m)\cdot (128\mod m)^{r-i}}]\mod m$ 。

11.3-3

证明：设字符串x表示成以 $2^{p}$ 为基数的数为 $k=a_{1}a_{2}...a_{r}$ ，根据上一题的结果， $h(k)=[\sum _{i=1}^{r}{(a_{i}\mod 2^{p}-1)\cdot (2^{p}\mod 2^{p}-1)^{r-i}}]\mod 2^{p}-1=\sum _{i=1}^{r}{a_{i}}$ ，所以字符串x的散列值与其字符的排列顺序无关。因此，如果串x可由串y通过其自身的字符置换排列导出，则x和y具有相同的散列值。

11.3-4

h(61)=700，h(62)=318，h(63)=936，h(64)=554，h(65)=172。

11.4 开放寻址法

11.4-1

用开放寻址法将关键字10、22、31、4、15、28、17、88、59插入到一长度为m=11的散列表中，辅助散列函数为 $h'(k)=k$ 。说明分别用线性探查、二次探查 $(c_{1}=1,c_{2}=3)$ 和双重散列 $(h_{1}(k)=k,h_{2}(k)=1+(k\mod (m-1)))$ 将这些关键字插入散列表的过程。

11.4-2

写出HASH-DELETE的伪代码；修改HASH-INSERT，使之能处理特殊值DELETED。

HASH-DELETE(T, k)
    for i = 0 to m-1
        j = h(k, i)
        if T[j] == k
            T[j] = DELETED
            return

HASH-INSERT(T, k)
    i = 0
    repeat
        j = h(k, i)
        if T[j] == NIL or T[j] == DELETED
            T[j] = k
            return j
        else i = i + 1
    until i == m
    error "hash table overflow"

11.4-3

当装载因子为3/4和7/8时，根据定理11.6，一次不成功查找的探查期望数上界分别为4和8，根据定理11.8，一次成功查找的探查期望数上界分别为 $\frac{4}{3}\ln{4}$ 和 $\frac{8}{7}\ln{8}$ 。

思考题

11-1 散列最长探查的界

a.证明：设第i次插入需要 $X_{i}$ 次探查，易得： $P\{X_{i}>k\}=\frac{i-1}{m}\ast \frac{i-2}{m-1}\ast \cdots \ast \frac{i-k}{m-k+1}$ 。因为 $i\leqslant n\leqslant m/2$ ，所以 $\frac{i-k}{m-k+1}\leqslant \frac{m/2-k}{m-k+1}\leqslant \frac{1}{2}\Rightarrow P\{X_{i}>k\}\leqslant 2^{-k}$ 。因此，对于i=1，2，...，n，第i次插入需要严格多于k次探查的概率至多为 $2^{-k}$ 。

b.证明：根据第a小问的结论，对于i=1，2，...，n，第i次插入需要多于 $2\lg{n}$ 次探查的概率至多为 $2^{-2\lg{n}}$ ，也即 $2^{-2\lg{n}}=\frac{1}{2^{\lg{n^{2}}}}=O(1/n^{2})$ 。

c.证明：根据第b小问的结论， $P\{X_{i}>2\lg{n}\}=O(1/n^{2})$ 。因此， $P\{X>2\lg{n}\}=P\{\max_{1\leqslant i\leqslant n}{X_{i}}>2\lg{n}\}=nP\{X_{i}>2\lg{n}\}=O(1/n)$ 。

d.证明： $E[X]=\sum _{X_{i}=1}^{n}{X_{i}P\{X=X_{i}\}}=\sum _{X_{i}=1}^{2\lg{n}}{X_{i}P\{X=X_{i}\}}+\sum _{X_{i}=2\lg{n}+1}^{n}{X_{i}P\{X=X_{i}\}}$ $\leqslant 2\lg{n}\sum _{X_{i}=1}^{2\lg{n}}{P\{X=X_{i}\}}+n\sum _{X_{i}=2\lg{n}+1}^{n}{P\{X=X_{i}\}}$ $=2\lg{n}P\{X_{i}\leqslant 2\lg{n}\}+nP\{X_{i}>2\lg{n}\}=2\lg{n}O(\frac{n-1}{n})+nO(\frac{1}{n})$ $\leqslant 2\lg{n}+1=O(\lg{n})$ 。

11-2 链接法中槽大小的界

a.证明：

$\binom{n}{k}$ 表示从n个关键字中选出k个散列到某一特定槽中的关键字。
$(\frac{1}{n})^{k}$ 表示选出的k个关键字都散列到某一特定槽中的概率。
$(1-\frac{1}{n})^{k}$ 表示剩下的n-k个关键字散列到其他槽中的概率。

因此，正好有k个关键字被散列到某一特定槽中的概率 $Q_{k}$ 为 $Q_{k}=(\frac{1}{n})^{k}(1-\frac{1}{n})^{n-k}\binom {n}{k}$ 。

b.证明：设随机变量 $X_{i}$ 表示第i个槽中所含关键字数， $A_{i}$ 表示第i个槽中有k个关键字。根据第a小问的结论， $P\{A_{i}\}=Q_{k}$ 。因此， $P_{k}=Pr\{\max_{1\leqslant i\leqslant n}{X_{i}}=k\}=Pr\{A_{1}\cup A_{2}\cup \cdots \cup A_{n}\}$ $\leqslant Pr\{A_{1}\}+Pr\{A_{2}\}+\cdots +Pr\{A_{n}\}=nQ_{k}$ 。

c.证明： $Q_{k}=(\frac{1}{n})^{k}(1-\frac{1}{n})^{n-k}\binom {n}{k}\leqslant (\frac{1}{n})^{k}\frac{n!}{k!(n-k)!}=\frac{n(n-1)\cdots (n-k+1)}{n^{k}k!}$ $\leqslant \frac{1}{k!}=\frac{1}{\sqrt{2\pi k}(\frac{k}{e})^{k}(1+\Theta (\frac{1}{n}))}\leqslant e^{k}/k^{k}$ 。

d.证明：为证 $Q_{k_{0}}<1/n^{3}$ 对 $k_{0}=c\lg{n}/\lg{\lg{n}}$ 成立，只需证 $\frac{e^{c\lg{n}/\lg{\lg{n}}}}{(c\lg{n}/\lg{\lg{n}})^{c\lg{n}/\lg{\lg{n}}}}<\frac{1}{n^{3}}$ ，两边取对数得到： $c\lg{e}\lg{n}/\lg{\lg{n}}-c\lg{n}/\lg{\lg{n}}\ast \lg{(c\lg{n}/\lg{\lg{n}})}<-3\lg{n}\Rightarrow$ $c\lg{(c\lg{n}/\lg{\lg{n}})}/\lg{\lg{n}}-c\lg{e}/\lg{\lg{n}}>3$ $\Rightarrow \frac{c(\lg{c}+\lg{\lg{n}}-\lg{\lg{\lg{n}}})-c\lg{e}}{\lg{\lg{n}}}>3$ ，令c>e得： $\frac{c(\lg{\lg{n}}-\lg{\lg{\lg{n}}})}{\lg{\lg{n}}}>3\Rightarrow c-\frac{c\lg{\lg{\lg{n}}}}{\lg{\lg{n}}}>3$ 。令 $x=\lg{\lg{n}}$ 得： $\frac{\lg{\lg{\lg{n}}}}{\lg{\lg{n}}}=\frac{\lg{x}}{x}\leqslant \frac{1}{2}$ ，所以 $c-\frac{c}{2}>3\Rightarrow c>6$ 。因此，当c>6时， $Q_{k_{0}}<1/n^{3}$ 对 $k_{0}=c\lg{n}/\lg{\lg{n}}$ 成立。

根据第b小问的结论， $P_{k}\leqslant nQ_{k}< 1/n^{2}$ 。

e.证明： $E[M]=\sum _{i=1}^{n}{iPr\{M=i\}}=\sum _{i=1}^{\frac{c\lg{n}}{\lg{\lg{n}}}}{iPr\{M=i\}}+\sum _{i=\frac{c\lg{n}}{\lg{\lg{n}}}+1}^{n}{iPr\{M=i\}}$ $\leqslant \frac{c\lg{n}}{\lg{\lg{n}}}\cdot \sum _{i=1}^{\frac{c\lg{n}}{\lg{\lg{n}}}}{Pr\{M=i\}}+n\cdot \sum _{i=\frac{c\lg{n}}{\lg{\lg{n}}}+1}^{n}{Pr\{M=i\}}$ $\leqslant Pr\{M>\frac{c\lg{n}}{\lg{\lg{n}}}\}\cdot n+Pr\{M\leqslant \frac{c\lg{n}}{\lg{\lg{n}}}\}\cdot \frac{c\lg{n}}{\lg{\lg{n}}}$ 。根据第

d小问的结论， $E[M]=Pr\{M\leqslant \frac{c\lg{n}}{\lg{\lg{n}}}\}\cdot \frac{c\lg{n}}{\lg{\lg{n}}}+n\cdot \sum _{i=\frac{c\lg{n}}{\lg{\lg{n}}}+1}^{n}{Pr\{M=i\}}$ $=Pr\{M\leqslant \frac{c\lg{n}}{\lg{\lg{n}}}\}\cdot \frac{c\lg{n}}{\lg{\lg{n}}}+n\cdot \sum _{i=\frac{c\lg{n}}{\lg{\lg{n}}}+1}^{n}{P_{i}}<\frac{c\lg{n}}{\lg{\lg{n}}}+n\cdot n\cdot 1/n^{2}$ $=O(\lg{n}/\lg{\lg{n}})$ 。

11-3 二次探查

a.当 $c_{1}=1,c_{2}=0$ 时，可得该方案是一般的“二次探查”法的一个实例。

b.证明：因为二次探查确实能够检查表中的每一个位置，所以在最坏情况下，这个算法要检查表中的每一个位置。

11-4 散列和认证

a.证明：因为散列函数簇 $\mathcal{H}$ 是2全域的，所以如果对每个由2个不同的关键字 $\left \langle x^{(1)},x^{(2)} \right \rangle$ 构成的固定序列，以及从 $\mathcal{H}$ 中随机选出的任意散列函数h，序列 $\left \langle h(x^{(1)}),h(x^{(2)}) \right \rangle$ 是 $m^{2}$ 个长度为2的序列（其元素取自{0，1，...，m-1}）中任意一个的可能性相同。所以，对任意两个不同的关键字 $x^{(a)},x^{(b)}$ ， $Pr\{h(x^{(a)})=h(x^{(b)})\}=\sum _{i=0}^{m-1}{Pr\{\left \langle h(x^{(1)}),h(x^{(2)}) \right \rangle=\left \langle i,i \right \rangle\}}=m\cdot \frac{1}{m^{2}}=\frac{1}{m}$ ，也即发生碰撞的概率是1/m。因此，如果散列函数簇 $\mathcal{H}$ 是2全域的，则它是全域的。

b.证明：因为散列结果有p种可能，所以发生碰撞的概率为1/p，因此， $\mathcal{H}$ 是全域的。考虑元素 $x=\left \langle 0,0,\cdots ,0 \right \rangle$ ，对于任意 $a,b\in U$ ，都有 $h_{a}(x)=h_{b}(x)=0$ ，所以 $\left \langle x,x^{(2)} \right \rangle$ 与以0开头的p个序列的散列值都相同，但与剩下的 $p^{2}-p$ 个序列的散列值不相同，因此， $\mathcal{H}$ 不是2全域的。

c.证明：考虑固定的n元组 $x\in U$ 和 $y\in U$ ，因为 $a_{i}$ 和 $b$ 包括 $Z_{p}$ ，对于任意的序列a，b能取0~p-1中的任意一个数，所以 $h'_{ab}{(x)}$ 等可能取0~p-1中的某一个数，所以 $\left \langle h'_{ab}(x),h'_{ab}(y) \right \rangle$ 是 $p^{2}$ 个长度为2的序列中任意一个的可能性相同。因此， $\mathcal{H'}$ 是2全域的。

d.证明：因为散列函数簇 $\mathcal{H}$ 是2全域的，所以任取 $\mathcal{H}$ 中的一个散列函数，对于某个 $m\in U$ ， $h(m)$ 总共有p种可能。因为对手不知道Alice和Bob约定的散列函数h是哪个，所以他成功地欺骗Bob接受 $(m',t')$ 的概率至多为1/p，即使他知道所用的散列函数簇 $\mathcal{H}$ 。