全面解析精讲数据结构第四章字符串和多维数组

最新推荐文章于 2021-05-24 04:17:18 发布

原创最新推荐文章于 2021-05-24 04:17:18 发布 · 置顶 · 749 阅读

0 ·

CC 4.0 BY-SA版权

算法同时被 3 个专栏收录

11 篇文章

订阅专栏

数据结构

8 篇文章

订阅专栏

解读数据结构

7 篇文章

订阅专栏

本文探讨了字符串的逻辑结构、存储方式及模式匹配算法，包括BF算法与KMP算法的原理与实现。同时，文章还详细介绍了多维数组的定义、特性、存储结构与寻址方法，以及特殊矩阵和稀疏矩阵的压缩存储技术。

第 4 章字符串和多维数组

本章的基本内容是：

1.字符串。在程序设计语言中大都有串变量的概念，而且实现了基本的串操作，本章重点讨论串的存储结构及模式匹配算法。

2.数组。在程序设计语言中大都提供了数组作为构造数据类型，本章重点讨论数组以及特殊矩阵的存储与寻址。

线性表——具有相同类型的数据元素的有限序列

栈——仅在表的一端进行插入和删除操作

队列——在一端进行插入操作，而另一端进行删除操作

串——零个或多个字符组成的有限序列

线性表——具有相同类型的数据元素的有限序列。

（多维）数组——线性表中的数据元素可以是线性表

4.1 字符串

一．串的逻辑结构

1.串：零个或多个字符组成的有限序列。

串长度：串中所包含的字符个数。

空串：长度为0的串，记为：" "。

非空串通常记为：

S=" s1 s2 …… sn "

其中：S是串名，双引号是定界符，双引号引起来的部分是串值，si（1≤i≤n）是一个任意字符。

1.子串：串中任意个连续的字符组成的子序列。

2.主串：包含子串的串。

3.子串的位置：子串的第一个字符在主串中的序号。

4.S1="ab12cd " S2="ab12" S3="ab13" S4="ab12φ" S5=" " S6="φφφ "

5.串的数据对象约束为某个字符集。

6. 微机上常用的字符集是标准ASCII码，由 7 位二进制数表示一个字符，总共可以表示 128 个字符。

7. 扩展ASCII码由 8 位二进制数表示一个字符，总共可以表示 256 个字符，足够表示英语和一些特殊符号，但无法满足国际需要。

8. Unicode由 16 位二进制数表示一个字符，总共可以表示 216个字符，能够表示世界上所有语言的所有字符，包括亚洲国家的表意字符。为了保持兼容性，Unicode字符集中的前256个字符与扩展ASCII码完全相同。

9.串的比较：通过组成串的字符之间的比较来进行的。

10.给定两个串：X="x1x2…xn"和Y="y1y2…ym"，则：

11.1. 当n=m且x1=y1，…，xn=ym时，称X=Y；

12.2. 当下列条件之一成立时，称X＜Y：

13.⑴ n＜m且xi=yi（1≤ i≤n）；

14.⑵存在k≤min(m,n)，使得xi=yi(1≤i≤k-1)且xk＜yk。例：S1="ab12cd "，S2="ab12"，S3="ab13"

15.如何表示串的长度？

方案1：用一个变量来表示串的实际长度。

方案2：在串尾存储一个不会在串中出现的特殊字符作为串的终结符，表示串的结尾。

方案3：用数组的0号单元存放串的长度，从1号单元开始存放串值。

二．模式匹配

1.模式匹配：给定主串S="s1s2…sn"和模式T="t1t2…tm"，在S中寻找T 的过程称为模式匹配。如果匹配成功，返回T 在S中的位置；如果匹配失败，返回0。

2.模式匹配问题有什么特点？

⑴ 算法的一次执行时间不容忽视：问题规模通常很大，常常需要在大量信息中进行匹配；

⑵ 算法改进所取得的积累效益不容忽视：模式匹配操作经常被调用，执行频率高。

3.模式匹配——BF (Back-Forward?) 算法

基本思想：从主串S的第一个字符开始和模式T 的第一个字符进行比较，若相等，则继续比较两者的后续字符；否则，从主串S的第二个字符开始和模式T 的第一个字符进行比较，重复上述过程，直到T 中的字符全部比较完毕，则说明本趟匹配成功；或S中字符全部比较完，则说明匹配失败。

例：主串S="ababcabcacbab"，模式T="abcac"

4.模式匹配——BF算法

在串S和串T中设比较的起始下标i和j；

循环直到S或T的所有字符均比较完

如果S[i]=T[j]，继续比较S和T的下一个字符；

否则，将i和j回溯，准备下一趟比较；

如果T中所有字符均比较完，则匹配成功，返回匹配的起始比较下标；否则，匹配失败，返回0；

int BF(char S[ ], char T[ ])

{

i=0; j=0;

while (S[i]!='\0'&&T[j]!='\0')

{

if (S[i]==T[j]) {

i++; j++;

}

else {

i=i-j+1; j=0;

}

if (T[j]=='\0') return (i-j+1);

else return 0;

}

6.或者

int BF(char S[ ], char T[ ])

{

i=0; j=0;start=0;

while (S[i]!='\0'&&T[j]!='\0')

{

if (S[i]==T[j]) {

i++; j++;

}

else {

start++; i=start; j=0;

}

if (T[j]=='\0') return start;

else return 0;

}

7.设串S长度为n，串T长度为m，在匹配成功的情况下，考虑两种极端情况：

最好情况：不成功的匹配都发生在串T的第1个字符。

例如：S="aaaaaaaaaabcdccccc"

T="bcd "

设匹配成功发生在si处，则在i-1趟不成功的匹配中共比较了i-1次，第i趟成功的匹配共比较了m次，所以总共比较了i-1+m次，所有匹配成功的可能情况共有n-m+1种，则：（即共比较了i趟，前i-1趟均只比较了1次，而第i趟比较了m次）

8.设串S长度为n，串T长度为m，在匹配成功的情况下，考虑两种极端情况：

最坏情况：不成功的匹配都发生在串T的最后一个字符。

例如：S="aaaaaaaaaaabccccc"

T="aaab"

9.为什么BF算法时间性能低？

在每趟匹配不成功时存在大量回溯，没有利用已经部分匹配的结果。

10.如何在匹配不成功时主串不回溯？

主串不回溯，模式就需要向右滑动一段距离。

二．模式匹配——KMP算法

11.模式匹配——KMP算法（基本思想：主串不进行回溯）

12.结论： i可以不回溯，模式向右滑动到的新比较起点k ，并且k 仅与模式串T有关！

13.需要讨论两个问题：

①如何由当前部分匹配结果确定模式向右滑动的新比较起点k？

②模式应该向右滑多远才是最高效率的?

14.抓住部分匹配时的两个特征：设模式滑动到第 k 个字

15.T[0]~T[k-1] = T[j-k]~T[j-1]说明了什么？

（1） k 与 j 具有函数关系，由当前失配位置 j ，可以计算出滑动位置 k（即比较的新起点）；

（2）滑动位置k 仅与模式串T有关。

next[j]函数值表示模式 T 中最大相同前缀和后缀（注意：是真子串）的长度。

模式中相似部分越多，next[j]函数值越大，表示模式 T 字符之间的相关度越高，模式串向右滑动得越远，与主串进行比较的次数越少，时间复杂度就越好。

16.计算next[j]的方法：

当j=0时，next[j]=-1；

//next[j]=-1表示不进行字符比较

当j>0时，next[j]的值为：模式串的位置从0到j-1构成的串中所出现的首尾相同的子串的最大长度。

当无首尾相同的子串时next[j]的值为0。

//next[j]=0表示从模式串头部开始进行字符比较

17.

模式串 T： a b a b c

可能失配位 j： 0 1 2 3 4

新匹配位k=next[j] :-1 0

j=0时, next[ j ]＝ -1；

j=1时, next[ j ]＝ 0；

18.

模式串 T： a b a b c

可能失配位 j： 0 1 2 3 4

新匹配位k=next[j] :-1 0 0

j=0时, next[ j ]＝ -1；

j=1时, next[ j ]＝ 0；

j=2时, T[0]≠T[1]，因此，k=0；

19.

模式串 T： a b a b c

可能失配位 j： 0 1 2 3 4

新匹配位k=next[j] :-1 0 0 1

j=0时, next[ j ]＝ -1；

j=1时, next[ j ]＝ 0；

j=2时, T[0]≠T[1]，因此，k=0；

j=3时, T[0]＝T[2]，T[0]T[1] ≠T[1]T[2]，因此，k=1；

20.

模式串 T： a b a b c

可能失配位 j： 0 1 2 3 4

新匹配位k=next[j] :-1 0 0 1 2

j=0时, next[ j ]＝ -1；

j=1时, next[ j ]＝ 0；j=2时, T[0]≠T[1]，因此，k=0；

j=3时, T[0]＝T[2]，T[0]T[1] ≠T[1]T[2]，因此，k=1；j=4时, T[0] ≠ T[3]，T[0]T[1] = T[2]T[3]，

T[0]T[1]T[2]≠T[1]T[2]T[3]，因此，k=2；

21.

22.KMP算法的伪代码描述

1. 在串S和串T中分别设比较的起始下标i和j；

2. 循环直到S或T的所有字符均比较完

2.1 如果S[i]=T[j]，继续比较S和T的下一个字符；否则

2.2 将j向右滑动到next[j]位置，即j=next[j]；

2.3 如果j=-1，则将i和j分别加1，准备下一趟比较；

3. 如果T中所有字符均比较完毕，则返回匹配的起始下标；否则返回0；

4.2 多维数组

1.数组的定义

数组是由一组类型相同的数据元素构成的有序集合，每个数据元素称为一个数组元素（简称为元素），每个元素受n(n≥1)个线性关系的约束，每个元素在n个线性关系中的序号i1、i2、…、in称为该元素的下标，并称该数组为 n 维数组。

2.数组的特点

元素本身可以具有某种结构，属于同一数据类型；

数组是一个具有固定格式和数量的数据集合。

3.数组的定义

例如，元素a22受两个线性关系的约束，在行上有一个行前驱a21和一个行后继a23，在列上有一个列前驱a12和和一个列后继a32。

4.在数组中插入（或）一个元素有意义吗？

无，数组没有插入和删除操作，所以，不用预留空间，适合采用顺序存储。

5.数组的基本操作

⑴ 存取：给定一组下标，读出对应的数组元素；

⑵ 修改：给定一组下标，存储或修改与其相对应的数组元素。

存取和修改操作本质上只对应一种操作——寻址

6.数组的存储结构与寻址——一维数组

设一维数组的下标的范围为闭区间［l，h］，每个数组元素占用 c 个存储单元，则其任一元素 ai 的存储地址可由下式确定：

Loc(ai)＝Loc(al)＋(i－l)×c

7.数组的存储结构与寻址——二维数组

常用的映射方法有两种：

按行优先：先行后列，先存储行号较小的元素，行号相同者先存储列号较小的元素。

按列优先：先列后行，先存储列号较小的元素，列号相同者先存储行号较小的元素。

8.按行优先存储的寻址

9.数组的存储结构与寻址——多维数组： n（n＞2）维数组一般也采用按行优先和按列优先两种存储方法。请自行推导任一元素存储地址的计算方法。

10.特殊矩阵和稀疏矩阵

特殊矩阵：矩阵中很多值相同的元素并且它们的分布有一定的规律。

稀疏矩阵：矩阵中有很多零元素。

压缩存储的基本思想是：

⑴ 为多个值相同的元素只分配一个存储空间；

⑵ 对零元素不分配存储空间。

11.特殊矩阵的压缩存储——对称矩阵

对称矩阵特点：aij=aji 只存储下三角部分的元素。

12.对称矩阵的压缩存储：

aij在一维数组中的序号

=阴影部分的面积

= i×(i-1)/2+ j

∵一维数组下标从0开始

∴aij在一维数组中的下标

k= i×(i-1)/2+ j-1

对于下三角中的元素aij（i≥j），在数组SA中的下标k与i、j的关系为：k＝i×(i-1)/2＋j -1。

上三角中的元素aij（i＜j），因为aij＝aji，则访问和它对应的元素aji即可，即：k＝j×(j-1)/2＋i -1 。

13.上三角矩阵的压缩存储

14.特殊矩阵的压缩存储——对角矩阵

对角矩阵：所有非零元素都集中在以主对角线为中心的带状区域中，除了主对角线和它的上下方若干条对角线的元素外，所有其他元素都为零。

元素aij在一维数组中的序号

=2 + 3(i－2)+( j－i + 2)

=2i+ j -2

∵一维数组下标从0开始

∴元素aij在一维数组中的下标

= 2i+ j -3

15.稀疏矩阵的压缩存储

将稀疏矩阵中的每个非零元素表示为：

(行号，列号，非零元素值)——三元组

template <class DataType>

struct element

{

int row, col; //行号，列号

DataType item //非零元素值

};

16.稀疏矩阵的压缩存储

三元组表：将稀疏矩阵的非零元素对应的三元组所构成的集合，按行优先的顺序排列成一个线性表。

17.稀疏矩阵的压缩存储——十字链表

全面解析精讲数据结构第四章字符串和多维数组

第 4 章 字符串和多维数组

本章的基本内容是：

线性表——具有相同类型的数据元素的有限序列

栈——仅在表的一端进行插入和删除操作

队列——在一端进行插入操作，而另一端进行删除操作

串——零个或多个字符组成的有限序列

线性表——具有相同类型的数据元素的有限序列。

（多维）数组——线性表中的数据元素可以是线性表

4.1 字符串

一．串的逻辑结构

二．模式匹配

例：主串S="ababcabcacbab"，模式T="abcac"

二．模式匹配——KMP算法

4.2 多维数组

第 4 章字符串和多维数组