最长公共子串LCS--之动态规划

本文介绍了一种寻找两个字符串中最长公共子串的算法,包括其基本原理、实现步骤及两种不同空间复杂度的代码实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最长公共子串--longest common Subsequence,即两个字符串中连续字符串的的公共子串。

描述:

给定两个字符串X=<x1,  x2, … ,  xm>, Y=<y1, y2, ... , yn>, 假设公共子串Z=<z1, z2, ... zk> 满足:

  • 如果xm = yn,那么zk = xm = yn而且Zk-1是Xm-1和Yn-1的一个LCS
  • 如果xm ≠ yn,那么zk ≠ xm → Z是Xm-1和Y的一个LCS
  • 如果xm ≠ yn,那么zk ≠ yn → Z是X和Yn-1的一个LCS

上面说明X,Y的LCS子串具有最优子结构。递推公式如下:设c[i,j]为最长子串长度

递推公式

 过程:

1、把两个字符串一个横排放置,一个纵排放置。如字符串longstr=“acebb”, Y=“acttacebd”,此时形成了一个矩阵arr【】【】。

2、当longStr【i】== shortStr【j】,时然后我们就可以在横、竖的矩阵中相应位置arr【i】【j】位置置1,如图:

矩阵中对应位置置1

看这上图,我们想要求最长子串,我们要做的:

第一步:遍历长、短字符串,然后在矩阵数组中相同位置置1

第二步:然后数斜线长度,最长即为结果。

代码如下:

#include <string>
#include <assert.h>

using namespace std;

char* LCS(const char* shortStr, const char* longStr);

int _tmain(int argc, _TCHAR* argv[])
{
	const char* shortStr = "acettab";
	const char* longStr  = "acettabfaceabcccctaf";

	char* result = LCS(shortStr, longStr);

	printf("longest common substring is: %s", result);

	getchar();  //在使用vs2008 vs2010时,使程序暂停下来
	return 0;
}

char* LCS(const char* shortStr, const char* longStr)
{
	assert(shortStr && longStr);

	int maxlen = 0;
	int row = 0;
        //计算两字符串长度
	unsigned slen = strlen( shortStr );
	unsigned llen = strlen( longStr );
        //定义二维数组,即矩阵
	unsigned **arr = NULL;

        //初始化二维矩阵
	arr = (unsigned ** ) malloc ( llen * sizeof(unsigned*));
	memset(arr, 0, llen * sizeof(unsigned*));
	for(unsigned i = 0; i < llen; ++i)
	{
		arr[i] = (unsigned *) malloc(slen * sizeof(unsigned));
		memset(arr[i], 0, slen * sizeof(unsigned));
	}

        //如上图,比较横、竖串,当字符相等时,矩阵对应位置置1,此时记录最长子串长度,赋值给maxlen,并记录最长子串结束的结束位置row
        //row值方便计算子串
      for(unsigned i = 0; i < llen ; ++i)
	{
		for (unsigned j = 0; j < slen; ++j)
		{
			if(shortStr[j] == longStr[i])
			{
				if (i == 0 || j == 0)
				{
					arr[i][j] = 1;
				}
				else
					arr[i][j] = arr[i-1][j-1] + 1;
			}
			if (arr[i][j] > maxlen)
			{
				maxlen = arr[i][j];	
				row = i + 1;
			}
		}
	}
       //释放资源
	for(int i = 0; i < slen; ++i)
		free(arr[i]);
	free(arr);

	char *lcsResult = NULL;
	lcsResult = (char*) malloc (maxlen * sizeof(char) + 1);
	memset(lcsResult, 0, maxlen + 1);
	int t;
	int tmp = maxlen;
	for (t = 0; t < maxlen; ++t)
	{
		*(lcsResult + t) = *(longStr + row - tmp);//计算最长子串
		tmp -= 1;
	}
	lcsResult[t] = '\0';
	return lcsResult;
}

时间复杂度:O(m*n), 空间复杂度O(m*n)

图2:计数递增的置数

改进:

正如上面代码所示,使用了二维矩阵记录每个相等的位置和子串的长度,空间复杂度为o(m*n)。从递推公式得知中我们计算最长子串的下一个连续位置时,即C【i,j】时使用的仅仅和C【i-1,j】和C【i, j-1】,或者C【i-1, j-1】有关。那我们可以可以仅仅使用C【i-1,j】,C【i,j】两行即可。

代码如下:

#include <string>
#include <assert.h>

using namespace std;

char* LCS(const char* shortStr, const char* longStr);

int _tmain(int argc, _TCHAR* argv[])
{
	const char* shortStr = "a2cett4ab";
	const char* longStr  = "aceabfacett3abcccctaf";

	char* result = LCS(shortStr, longStr);

	printf("longest common substring is: %s", result);

	getchar();
	return 0;
}

char* LCS(const char* shortStr, const char* longStr)
{
	assert(shortStr && longStr);

	int maxlen = 0;
	int row = 0;

	unsigned slen = strlen( shortStr );
	unsigned llen = strlen( longStr );

	unsigned **arr = NULL;

	arr = (unsigned ** ) malloc ( 2 * sizeof(unsigned*));
	memset(arr, 0, 2 * sizeof(unsigned*));
	for(unsigned i = 0; i < 2; ++i)                                  //仅仅申请了两行数据
	{
		arr[i] = (unsigned *) malloc(slen * sizeof(unsigned));
		memset(arr[i], 0, slen * sizeof(unsigned));
	}


	for (unsigned j = 0; j < slen; ++j)
	{
		if (shortStr[j] == longStr[0])
		{
			arr[0][j] = 1;
		}
	}
	for(int p = 0; p < slen ; ++p)
		printf(" %d", arr[0][p]);
	printf("\n");
	for(unsigned i = 1; i < llen ; ++i)
	{
		for (unsigned j = 0; j < slen; ++j)
		{
			if(shortStr[j] == longStr[i])
			{
				if (j == 0)
				{
					arr[1][j] = 1;
				}
				else
					arr[1][j] = arr[0][j-1] + 1;
			}
			if (arr[1][j] > maxlen)
			{
				maxlen = arr[1][j];	
				row = i + 1;
			}
		}
		memcpy(arr[0], arr[1], slen * sizeof(unsigned));
		memset(arr[1], 0, slen * sizeof(unsigned));
		
		for(int p = 0; p < slen ; ++p)                           //输出
			printf(" %d", arr[0][p]);
		printf("\n");

	}


	for(int i = 0; i < 2; ++i)
		free(arr[i]);
	free(arr);

	char *lcsResult = NULL;
	lcsResult = (char*) malloc (maxlen * sizeof(char) + 1);
	memset(lcsResult, 0, maxlen + 1);
	int t;
	int tmp = maxlen;
	for (t = 0; t < maxlen; ++t)
	{
		*(lcsResult + t) = *(longStr + row - tmp);
		tmp -= 1;
	}
	lcsResult[t] = '\0';
	return lcsResult;
}
时间复杂度: O(m*n),空间复杂度: O(2*n)



学习思考:在使用动态规划求最大公共子串LCS时,需要较大的内存开销,即O(m*n),时间复杂度也是O(m*n),从递推公式中我们发现可以把空间复杂度降低到O(2*n)。是一个很大的改进。那时间复杂度有没有更好的优化呢?后缀树提供了一种更优的时间复杂度O(m)。以此为契机,学习后缀树。

内容概要:本文介绍了基于Python实现的SSA-GRU(麻雀搜索算法优化门控循环单元)时间序列预测项目。项目旨在通过结合SSA的全局搜索能力和GRU的时序信息处理能力,提升时间序列预测的精度和效率。文中详细描述了项目的背景、目标、挑战及解决方案,涵盖了从数据预处理到模型训练、优化及评估的全流程。SSA用于优化GRU的超参数,如隐藏层单元数、学习率等,以解决传统方法难以捕捉复杂非线性关系的问题。项目还提供了具体的代码示例,包括GRU模型的定义、训练和验证过程,以及SSA的种群初始化、迭代更新策略和适应度评估函数。; 适合人群:具备一定编程基础,特别是对时间序列预测和深度学习有一定了解的研究人员和技术开发者。; 使用场景及目标:①提高时间序列预测的精度和效率,适用于金融市场分析、气象预报、工业设备故障诊断等领域;②解决传统方法难以捕捉复杂非线性关系的问题;③通过自动化参数优化,减少人工干预,提升模型开发效率;④增强模型在不同数据集和未知环境中的泛化能力。; 阅读建议:由于项目涉及深度学习和智能优化算法的结合,建议读者在阅读过程中结合代码示例进行实践,理解SSA和GRU的工作原理及其在时间序列预测中的具体应用。同时,关注数据预处理、模型训练和优化的每个步骤,以确保对整个流程有全面的理解。
内容概要:本文详细介绍了如何使用PyQt5创建一个功能全面的桌面备忘录应用程序,涵盖从环境准备、数据库设计、界面设计到主程序结构及高级功能实现的全过程。首先,介绍了所需安装的Python库,包括PyQt5、sqlite3等。接着,详细描述了SQLite数据库的设计,创建任务表和类别表,并插入默认类别。然后,使用Qt Designer设计UI界面,包括主窗口、任务列表、工具栏、过滤器和日历控件等。主程序结构部分,展示了如何初始化UI、加载数据库数据、显示任务列表以及连接信号与槽。任务管理功能方面,实现了添加、编辑、删除、标记完成等操作。高级功能包括类别管理、数据导入导出、优先级视觉标识、到期日提醒、状态管理和智能筛选等。最后,提供了应用启动与主函数的代码,并展望了扩展方向,如多用户支持、云同步、提醒通知等。 适合人群:零基础或初学者,对Python和桌面应用程序开发感兴趣的开发者。 使用场景及目标:①学习PyQt5的基本使用方法,包括界面设计、信号与槽机制;②掌握SQLite数据库的基本操作,如创建表、插入数据、查询等;③实现一个完整的桌面应用程序,具备增删改查和数据持久化功能;④了解如何为应用程序添加高级特性,如类别管理、数据导入导出、到期日提醒等。 阅读建议:此资源不仅适用于零基础的学习者,也适合有一定编程经验的开发者深入理解PyQt5的应用开发。建议读者跟随教程逐步实践,结合实际操作来理解和掌握每个步骤,同时可以尝试实现扩展功能,进一步提升自己的开发技能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值