第四章——字符串和多维数组

本文深入探讨字符串的逻辑与存储结构,模式匹配算法如BF和KMP,以及多维数组的概念与压缩存储方法,包括对称、稀疏和广义表的特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

字符串和多维数组

字符串

(1)串的逻辑结构
串:零个或多个字符组成的有限序列。
串长度:串中所包含的字符个数。
空串:长度为0的串,记为:" “。
非空串通常记为:
S=” s1 s2 …… sn "
其中:S是串名,双引号是定界符,双引号引起来的部分是串值 ,si(1≤i≤n)是一个任意字符。
子串:串中任意个连续的字符组成的子序列。
主串:包含子串的串。
子串的位置:子串的第一个字符在主串中的序号。
S1="ab12cd "
S2=“ab12”
S3=“ab13”
(2)串的存储结构
顺序串:用数组来存储串中的字符序列。
串的长度的表示:
1,用一个变量来表示串的实际长度。
2,在串尾存储一个不会在串中出现的特殊字符作为串的终结符,表示串的结尾。
3,用数组的0号单元存放串的长度,从1号单元开始存放串值。
链接串:用链接存储结构来存储串。
改造链表实现串的链接存储:
1,非压缩形式
2,压缩形式


模式匹配
模式匹配:给定主串S="s1s2…sn"和模式T=“t1t2…tm”,在S中寻找T 的过程称为模式匹配。如果匹配成功,返回T 在S中的位置,如果匹配失败,返回-1。
应用包括:生物信息学(基因表达分析,基因配对)、信息检索、拼写检查、语言翻译、数据压缩、网络入侵检测。

BF算法
基本思想:
从主串S的第0个字符开始和模式T 的第0个字符进行比较,
若相等,则继续比较两者的后续字符;
否则,从主串S的第1个字符开始和模式T 的第0个字符进行比较,
重复上述过程,直到T 中的字符全部比较完毕,则说明本趟匹配成功;或S中字符全部比较完,则说明匹配失败。
说明:模式匹配过程要进行多趟的匹配,每趟匹配要进行若干次的比较
在这里插入图片描述
1.在串S和串T中设比较的起始下标i和j;
2. 循环直到S或T的所有字符均比较完;
2.1 如果S[i]==T[j],继续比较S和T的下一个字符;
2.2 否则,将i和j回溯(i=i-j+1,j=0),准备下一趟比较;
3. 如果T中所有字符均比较完,则匹配成功,返回匹配的起始比较下标(i-j);否则,匹配失败,返回-1;

int BF(char S[ ], char T[ ])
{
     i=0; j=0;   
    while (i<S.Length()&&j<T.length())
    {
         if (S[i]==T[j]) {
             i++;   j++;
         }  
         else {
             i=i-j+1;    j=0;
         }   
     }
     if (j>=T.length())  return (i-j);   
     else return -1;
}

设串S长度为n,串T长度为m,在匹配成功的情况下,考虑两种极端情况:
⑴ 最好:不成功的匹配都发生在串T的第一个字符。
例如:S=“aaaaaaaaaabcdccccc”
T="bcd "
1,设匹配成功发生在si-1处,在这次匹配成功的过程中,总共进行了多少次比较?(包括之前失败的比较次数)
在i-1趟不成功的匹配中共比较了i-1次,
第i趟成功的匹配共比较了m次,
所以总共比较了i-1+m次.
S=“aaaaaaaaaabcdccccc”
T="bcd "
2,所有匹配成功的可能情况共有n-m+1种
3,匹配成功时平均的比较次数:
在这里插入图片描述
最坏情况:不成功的匹配都发生在串T的最后一个字符。
1,设匹配成功发生在si处,则在这次成功的比较过程中共进行了多少次比较?(包括之前失败的比较)
在i-1趟不成功的匹配中比较了(i-1)×m次,
第i趟成功的匹配共比较了m次,
所以总共比较了i×m次。
例如:S=“aaaaaaaaaaabccccc”
T=“aaab”
2,所有匹配成功的可能情况共有n-m+1种
3,匹配成功时平均的比较次数:
Pi 表示在第i个位置上匹配成功的概率,Pi=1/(n-m+1)
在这里插入图片描述
Pi 表示在第i个位置上匹配成功的概率,Pi=1/(n-m+1)


问题:
BF算法时间性能低:
在每趟匹配不成功时存在大量回溯,没有利用已经部分匹配的结果。
如何在匹配不成功时主串不回溯?
主串不回溯,模式就需要向右滑动一段距离。(i不移动,j>=0的位置继续进行下一次的比较)


模式匹配——KMP算法
结论: i可以不回溯,模式向右滑动到的新比较
起点k ,并且k 仅与模式串T有关!

void Compute_Next(char t[], int next[])
{
 int j,k;
      next[0]=-1;j=1;
 while(t[j]!='\0')
 {
  k=next[j-1];
  while((k!=-1)&&(t[k]!=t[j-1]))
   k=next[k];
  next[j]=++k;
  j++;
 }
}

令k = next[ j ],则:
在这里插入图片描述

next[ j ]=
(1) -1 当j=0时 //不比较
(2) max { k | 0<k<j 且T0…Tk-1=Tj-(k-1) …Tj-1 }
(3)0 其他情况
next[j]表征着模式T中最大相同前缀子串和左子串(真子串)的长度。


next[j]的算法分析:
k=next[j-1](由next[]的 定义可以知道:t0t1…tk-1= tj-k…tj-3tj-2)

  1. 如果t[k]t[j-1]或k-1(不存在长度相同的前缀子串和左子串 )
    则t0t1…tk-1tk= tj-k…tj-3tj-2tj-1,因此
    next[j]=k+1,next[j]计算结束
    否则, 查找t0t1…tk的最长左子串
    k=next[k],转 1 继续执行
k=next[j-1];
while((k!=-1)&&(t[k]!=t[j-1]))
      k=next[k];
next[j]=++k;


KMP模式匹配算法:

int KMP_FindPat(char *s, char *t,int *next){
 int i=0,j=0,k;
 while(s[i]!='\0' && t[j]!='\0') {
  if(j==-1 || s[i]==t[j]) {
                 i++;
                 j++;
           }
  else
        j=next[j];
 }
 if(t[j]=='\0')
  return i-j;
 else
  return -1;
}


时间复杂性:O(n+m)


多维数组

在这里插入图片描述
在这里插入图片描述
数组的定义:
数组是由一组类型相同的数据元素构成的有序集合,每个元素受n(n≥1)个线性关系的约束,并称该数组为 n 维数组。
特点:
1,元素本身可以具有某种结构,属于同一数据类型;
2,数组是一个具有固定格式和数量的数据集合。
二维数组是数据元素为线性表的线性表。

数组的基本操作:
⑴ 存取:给定一组下标,读出对应的数组元素;
⑵ 修改:给定一组下标,存储或修改与其相对应的数组元素。
存取和修改操作本质上只对应一种操作——寻址

(数组没有插入和删除操作,所以,不用预留空间,适合采用顺序存储。)

一维数组:
设一维数组的下标的范围为闭区间[l,h],每个数组元素占用 c 个存储单元,则其任一元素 ai 的存储地址可由下式确定:
Loc(ai)=Loc(al)+(i-l)×c
在这里插入图片描述

映射方法:
1,按行优先:先行后列,先存储行号较小的元素,行号相同者先存储列号较小的元素。
2,按列优先:先列后行,先存储列号较小的元素,列号相同者先存储行号较小的元素。

三维数组:
各维元素个数为 m1, m2, m3
下标为 i1, i2, i3的数组元素的存储地址:
按页/行/列存放
说明:各维的下标从0开始
LOC ( i1, i2, i3 ) = a + (i1* m2 * m3+ i2* m3+ i3 )* l

n维数组:
各维元素个数为 m1, m2, m3, …, mn
下标为 i1, i2, i3, …, in 的数组元素的存储地址:
LOC ( i1, i2, …, in ) = a +
( i1m2m3*…mn + i2m3m4…*mn+

  • ……+ in-1*mn + in ) * l
    在这里插入图片描述
    矩阵的压缩存储
    特殊矩阵和稀疏矩阵
    特殊矩阵:矩阵中很多值相同的元素并且它们的分布有一定的规律。
    稀疏矩阵:矩阵中有很多零元素。
    压缩存储的基本思想是:
    ⑴ 为多个值相同的元素只分配一个存储空间;
    ⑵ 对零元素不分配存储空间。

在这里插入图片描述
对称矩阵的压缩存储:
aij在一维数组中的序号
= i×(i-1)/2+ j
∵一维数组下标从0开始
∴aij在一维数组中的下标
k= i×(i-1)/2+ j-1
对于下三角中的元素aij(i≥j), 在一维数组中的下标k与i、j的关系为:
k=i×(i-1)/2+j-1 。
上三角中的元素aij(i<j),因为aij=aji,则访问和它对应的元素aji即可,即:
k=j×(j-1)/2+i -1。
特殊矩阵的压缩存储——对角矩阵 (带状矩阵)
对角矩阵:所有非零元素都集中在以主对角线为中心的带状区域中,除了主对角线和它的上下方若干条对角线的元素外,所有其他元素都为零。
对角矩阵 (带状矩阵)压缩存储方法一 :二维数组法
对角矩阵 (带状矩阵)压缩存储方法一 :二维数组法
稀疏矩阵的压缩存储
将稀疏矩阵中的每个非零元素表示为:
(行号,列号,非零元素值)——三元组
定义三元组:

template <class T>
struct element
{    
    int row, col;     //行号,列号
    T item              //非零元素值
};

三元组表:将稀疏矩阵的非零元素对应的三元组所构成的集合,按行优先的顺序排列成一个线性表
存储结构定义:

const int MaxTerm=100;
    template <class T>
    struct SparseMatrix
    {
       T data[MaxTerm];   //存储非零元素
       int mu, nu, tu;           //行数,列数,非零元个数
    };

稀疏矩阵的压缩存储——十字链表
采用链接存储结构存储三元组表,每个非零元素对应的三元组存储为一个链表结点,结构为:
在这里插入图片描述
row:存储非零元素的行号
col:存储非零元素的列号
item:存储非零元素的值
right:指针域,指向同一行中的下一个三元组
down:指针域,指向同一列中的下一个三元组


十字链表结点类的定义

template<class T>
class OLNode
{
 
public:
 int row,col;
 T element;
 OLNode<T>* right,*down;
public:
 OLNode(){right=NULL;down=NULL;};
};

广义表
广义表(列表): n (  0 )个表元素组成的有限序列,记作:
LS = (a0, a1, a2, …, an-1)
LS是表名,ai是表元素,它可以是表 (称为子表),可以是数据元素(称为原子)。
n为表的长度。n = 0 的广义表为空表。
长度:广义表LS中的直接元素的个数;
深度:广义表LS中括号的最大嵌套层数。
表头:广义表LS非空时,称第一个元素为LS的表头;
表尾:广义表LS中除表头外其余元素组成的广义表。

广义表与线性表的区别?
线性表的成分都是结构上不可分的单元素
广义表的成分可以是单元素,也可以是有结构的表
线性表是一种特殊的广义表
广义表不一定是线性表,也不一定是线性结构
广义表的基本运算:
(1)求表头GetHead(L):非空广义表的第一个元素,可以是一个单元素,也可以是一个子表
(2)求表尾GetTail(L):非空广义表除去表头元素以外其它元素所构成的表。表尾一定是一个表
(广义表中的数据元素的类型不统一,因此难以采用顺序存储结构来存储)
在这里插入图片描述
广义表的存储结构——头尾表示法

定义结点结构

template <class T>
struct GLNode {  
   Elemtag tag; 
   union    {
      T data; 
      struct 
      {
          GLNode *hp, *tp; 
       } ptr;                            
    };
};

广义表的特点:
1,有次序性
2,有长度
3,有深度
4,可递归
5,可共享

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

泡泡>3<

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值