全面解析精讲数据结构第四章字符串和多维数组

本文探讨了字符串的逻辑结构、存储方式及模式匹配算法,包括BF算法与KMP算法的原理与实现。同时,文章还详细介绍了多维数组的定义、特性、存储结构与寻址方法,以及特殊矩阵和稀疏矩阵的压缩存储技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第 章  字符串和多维数组

本章的基本内容是:

 

 1.字符串。在程序设计语言中大都有串变量的概念,而且实现了基本的串操作,本章重点讨论串的存储结构及模式匹配算法。

 2.数组。在程序设计语言中大都提供了数组作为构造数据类型,本章重点讨论数组以及特殊矩阵的存储与寻址。 

线性表——具有相同类型的数据元素的有限序列

栈——仅在表的一端进行插入和删除操作

队列——在一端进行插入操作,而另一端进行删除操作

串——零个或多个字符组成的有限序列

线性表——具有相同类型的数据元素的有限序列。

(多维)数组——线性表中的数据元素可以是线性表

 

4.1  字符串

一.串的逻辑结构

1.串:零个或多个字符组成的有限序列。

 串长度:串中所包含的字符个数。

 空串:长度为0的串,记为:" "

非空串通常记为:

S=" s1 s2 …… sn "

其中:S是串名,双引号是定界符,双引号引起来的部分是串值 ,si1in)是一个任意字符。

1.子串:串中任意个连续的字符组成的子序列。

2.主串:包含子串的串。

3.子串的位置:子串的第一个字符在主串中的序号。

4.S1="ab12cd "  S2="ab12"  S3="ab13"   S4="ab12φ"   S5=" "    S6="φφφ "

5.串的数据对象约束为某个字符集。

6. 微机上常用的字符集是标准ASCII码,由 位二进制数表示一个字符,总共可以表示 128 个字符。

                                                   7. 扩展ASCII码由 位二进制数表示一个字符,总共可以表示 256 个字符,足够表示英语和一些特殊符号,但无法满足国际需要。

                                                                8. Unicode由 16 位二进制数表示一个字符,总共可以表示 216个字符,能够表示世界上所有语言的所有字符,包括亚洲国家的表意字符。为了保持兼容性,Unicode字符集中的前256个字符与扩展ASCII码完全相同。  

9.串的比较:通过组成串的字符之间的比较来进行的。 

10.给定两个串:X="x1x2xn"Y="y1y2ym",则:

11.1. n=mx1=y1,…,xn=ym时,称X=Y

12.2. 当下列条件之一成立时,称XY

13.⑴ nmxi=yi1≤ in);

14.⑵存在kmin(m,n),使得xi=yi(1ik-1)xkyk。例:S1="ab12cd "S2="ab12"S3="ab13"

15.如何表示串的长度?

方案1:用一个变量来表示串的实际长度。 

方案2:在串尾存储一个不会在串中出现的特殊字符作为串的终结符,表示串的结尾。 

方案3:用数组的0号单元存放串的长度,从1号单元开始存放串值。

二.模式匹配 

1.模式匹配:给定主串S="s1s2sn"和模式T="t1t2tm",在S中寻找的过程称为模式匹配。如果匹配成功,返回S中的位置;如果匹配失败,返回0

2.模式匹配问题有什么特点?

⑴ 算法的一次执行时间不容忽视:问题规模通常很大,常常需要在大量信息中进行匹配;

⑵ 算法改进所取得的积累效益不容忽视:模式匹配操作经常被调用,执行频率高。

3.模式匹配——BF (Back-Forward?) 算法 

基本思想:从主串S的第一个字符开始和模式的第一个字符进行比较,若相等,则继续比较两者的后续字符;否则,从主串S的第二个字符开始和模式的第一个字符进行比较,重复上述过程,直到中的字符全部比较完毕,则说明本趟匹配成功;或S中字符全部比较完,则说明匹配失败。


例:主串S="ababcabcacbab",模式T="abcac"


4.模式匹配——BF算法 

           在串S和串T中设比较的起始下标ij

           循环直到ST的所有字符均比较完

           如果S[i]=T[j],继续比较ST的下一个字符;

           否则,将ij回溯,准备下一趟比较;

           如果T中所有字符均比较完,则匹配成功,返回匹配的起始比较下标;否则,匹配失败,返回0

5.

int BF(char S[ ], char T[ ])

{

     i=0; j=0;   

    while (S[i]!='\0'&&T[j]!='\0')

    {

         if (S[i]==T[j]) {

             i++;   j++;

         }  

         else {

             i=i-j+1;    j=0;

         }   

     }

     if (T[j]=='\0') return (i-j+1);   

     else return 0;

}

6.或者

int BF(char S[ ], char T[ ])

{

     i=0; j=0;start=0;   

    while (S[i]!='\0'&&T[j]!='\0')

    {

         if (S[i]==T[j]) {

             i++;   j++;

         }  

         else {

             start++;  i=start;  j=0;

         }   

     }

     if (T[j]=='\0') return start;   

     else return 0;

}

7.设串S长度为n,串T长度为m,在匹配成功的情况下,考虑两种极端情况: 

最好情况:不成功的匹配都发生在串T的第1个字符。

例如:S="aaaaaaaaaabcdccccc"

            T="bcd "

 

设匹配成功发生在si处,则在i-1趟不成功的匹配中共比较了i-1次,第i趟成功的匹配共比较了m次,所以总共比较了i-1+m次,所有匹配成功的可能情况共有n-m+1种,则:(即共比较了i趟,前i-1趟均只比较了1次,而第i趟比较了m次)

8.设串S长度为n,串T长度为m,在匹配成功的情况下,考虑两种极端情况: 

最坏情况:不成功的匹配都发生在串T的最后一个字符。 

例如:S="aaaaaaaaaaabccccc"

            T="aaab" 

9.为什么BF算法时间性能低?

在每趟匹配不成功时存在大量回溯,没有利用已经部分匹配的结果。

10.如何在匹配不成功时主串不回溯?

主串不回溯,模式就需要向右滑动一段距离。

 

二.模式匹配——KMP算法 


11.模式匹配——KMP算法(基本思想:主串不进行回溯) 

12.结论: i可以不回溯,模式向右滑动到的新比较起点,并且仅与模式串T有关!

13.需要讨论两个问题:

①如何由当前部分匹配结果确定模式向右滑动的新比较起点k

②模式应该向右滑多远才是最高效率的?

14.抓住部分匹配时的两个特征:设模式滑动到第 个字


15.T[0]~T[k-1] = T[j-k]~T[j-1]说明了什么?

1) 与 具有函数关系,由当前失配位置 ,可以计算出滑动位置 k(即比较的新起点);

2)滑动位置仅与模式串T有关。


next[j]函数值表示模式 中最大相同前缀和后缀(注意:是真子串)的长度。

 模式中相似部分越多,next[j]函数值越大,表示模式 字符之间的相关度越高,模式串向右滑动得越远,与主串进行比较的次数越少,时间复杂度就越好。

16.计算next[j]的方法:

j=0时,next[j]=-1;   

//next[j]=-1表示不进行字符比较

 当j>0时,next[j]的值为:模式串的位置从0j-1构成的串中所出现的首尾相同的子串的最大长度。

 当无首尾相同的子串时next[j]的值为0。 

//next[j]=0表示从模式串头部开始进行字符比较

17.

 

模 式 串  T:   a   b    a    b    c

可能失配位 j:   0    1    2    3    4

新匹配位k=next[j] :-1  0

j=0, next[ j ]= -1

j=1, next[ j ]= 0

18.

 

 

模 式 串  T:   a   b    a    b    c

可能失配位 j:   0    1    2    3    4

新匹配位k=next[j] :-1   0    0

j=0, next[ j ]= -1

j=1, next[ j ]= 0

j=2, T[0]T[1],因此,k=0

19.

 

模 式 串  T:   a   b    a    b    c

可能失配位 j:   0    1    2    3    4

新匹配位k=next[j] :-1  0   0   1

j=0, next[ j ]= -1

j=1, next[ j ]= 0

j=2, T[0]T[1],因此,k=0

j=3, T[0]T[2]T[0]T[1] T[1]T[2],因此,k=1

 

20.

模 式 串  T:   a   b    a    b    c

可能失配位 j:   0    1    2    3    4

新匹配位k=next[j] :-1  0  0  1  2

j=0, next[ j ]= -1

j=1, next[ j ]= 0j=2, T[0]T[1],因此,k=0

j=3, T[0]T[2]T[0]T[1] T[1]T[2],因此,k=1j=4, T[0] ≠ T[3]T[0]T[1] = T[2]T[3]

T[0]T[1]T[2]T[1]T[2]T[3],因此,k=2

21.


22.KMP算法的伪代码描述

1. 在串S和串T中分别设比较的起始下标ij

2. 循环直到ST的所有字符均比较完

     2.1 如果S[i]=T[j],继续比较ST的下一个字符;否则

     2.2 j向右滑动到next[j]位置,即j=next[j]

     2.3 如果j=-1,则将ij分别加1,准备下一趟比较;

 3. 如果T中所有字符均比较完毕,则返回匹配的起始下标;否则返回0

 

 

4.2  多维数组

1.数组的定义

数组是由一组类型相同的数据元素构成的有序集合,每个数据元素称为一个数组元素(简称为元素),每个元素受n(n1)个线性关系的约束,每个元素在n个线性关系中的序号i1i2、…、in称为该元素的下标,并称该数组为 维数组。 

2.数组的特点

元素本身可以具有某种结构,属于同一数据类型;

数组是一个具有固定格式和数量的数据集合。

3.数组的定义


例如,元素a22受两个线性关系的约束,在行上有一个行前驱a21和一个行后继a23,在列上有一个列前驱a12和和一个列后继a32

4.在数组中插入(或)一个元素有意义吗?

无,数组没有插入和删除操作,所以,不用预留空间,适合采用顺序存储。

5.数组的基本操作

⑴ 存取:给定一组下标,读出对应的数组元素;

⑵ 修改:给定一组下标,存储或修改与其相对应的数组元素。

 

存取和修改操作本质上只对应一种操作——寻址

6.数组的存储结构与寻址——一维数组

 

设一维数组的下标的范围为闭区间[lh],每个数组元素占用 个存储单元,则其任一元素 ai 的存储地址可由下式确定: 

Loc(ai)Loc(al)(il)×

 

7.数组的存储结构与寻址——二维数组

 

常用的映射方法有两种:

按行优先:先行后列,先存储行号较小的元素,行号相同者先存储列号较小的元素。 

按列优先:先列后行,先存储列号较小的元素,列号相同者先存储行号较小的元素。 

8.按行优先存储的寻址

9.数组的存储结构与寻址——多维数组: nn2)维数组一般也采用按行优先和按列优先两种存储方法。请自行推导任一元素存储地址的计算方法。

10.特殊矩阵和稀疏矩阵

特殊矩阵:矩阵中很多值相同的元素并且它们的分布有一定的规律。

 稀疏矩阵:矩阵中有很多零元素。

压缩存储的基本思想是:

    ⑴ 为多个值相同的元素只分配一个存储空间;

  ⑵ 对零元素不分配存储空间。

11.特殊矩阵的压缩存储——对称矩阵 

对称矩阵特点:aij=aji    只存储下三角部分的元素。

 

12.对称矩阵的压缩存储:

aij在一维数组中的序号

=阴影部分的面积

= i×(i-1)/2+ j

∵一维数组下标从0开始

aij在一维数组中的下标

k= i×(i-1)/2+ j-1

对于下三角中的元素aijij),在数组SA中的下标kij的关系为:ki×(i-1)/2j -1

上三角中的元素aijij),因为aijaji,则访问和它对应的元素aji即可,即:kj×(j-1)/2i -1 

13.上三角矩阵的压缩存储

 

14.特殊矩阵的压缩存储——对角矩阵 

对角矩阵:所有非零元素都集中在以主对角线为中心的带状区域中,除了主对角线和它的上下方若干条对角线的元素外,所有其他元素都为零。 

元素aij在一维数组中的序号

=2 + 3(i2)+( ji + 2)

=2i+ j -2          

∵一维数组下标从0开始

∴元素aij在一维数组中的下标

= 2i+ j -3

15.稀疏矩阵的压缩存储 

将稀疏矩阵中的每个非零元素表示为:

(行号,列号,非零元素值)——三元组

template <class DataType>

struct element

{    

    int row, col;                   //行号,列号

    DataType item              //非零元素值

};

16.稀疏矩阵的压缩存储 

三元组表:将稀疏矩阵的非零元素对应的三元组所构成的集合,按行优先的顺序排列成一个线性表。

17.稀疏矩阵的压缩存储——十字链表


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值