【哈希】Power String

本文介绍了一种使用哈希方法检测字符串是否由多个相同子串重复构成的算法。通过记录字符串及其前缀的哈希值,并利用哈希特性比较不同部分的子串,实现了高效检测。文章提供了详细的算法实现思路及C++代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目描述

给定若干个长度小于等于1e6的字符串,询问每个字符串最多由多少个相同的子串重复连接而成。如:ababab,最多由3个ab连接而成。

输入

输入有多组,每行一个只有小写字母组成的字符串。以"."为结束符

输出

对于每组输入,输出一行,表示答案。

样例输入

abcd
aaaa
ababab
.

样例输出

1
4
3

题解

这题之前有KMP的方法,哈希的着手点在于记录下给定字符串和所有前缀的哈希值,可以用一个数组来存储,ha[i]表示前i位(包括i)组成的字符串的hash值(这里的hash值第0位不能为1,也要算进去),再用一个数组保存p的i次方的值。然后我们枚举可能的字串长度(能够整除)i,不断的进行比较。

例如abcabc,当我们枚举到i=3的时候,当前字串尾下标是i-1(下标从0开始),字串是abc,子串的hash值h=ha[i-1],与原字符串第0到i-1串的hash值进行比较(可省略这一步),相等的话,比较的位置向后移动i位,与0+i到2*i-1串的hash值进行比较,不相等就直接break,否则重复上面的步骤向后移动。

在程序中我们是用j来表示比较位置的末尾(j=i-1,2*i-1,…),用第j-i到第j位之间的hash值和子串的hash值h进行比较。第j-i到第j位之间的hash值等于第0到第j位之间的hash值ha[j] - 第0位到第j-i位的hash值ha[j-i]*k[i]

公式:ha[j]=ha[j-i]*(p^i)+ha[i-1]

=>ha[j]=ha[j-i]*k[i]+ha[i-1]

=>ha[i-1]=ha[j]-ha[j-i]*k[i]

如果字串的hash值h不等于ha[i-1],就break。

由于我们的循环是从子串长度由小到大循环的,也就意味着子串数量是由多到少,所以只要出现了满足的子串就可以直接输出并且break。

#include<iostream>
#include<cstring>
#include<string>
using namespace std;
typedef unsigned long long ull;
const int maxn=1e6+5;
char s[maxn];
ull p=31,k[maxn],ha[maxn];
int main()
{
	k[0]=1;
	for(int i=1;i<maxn;i++)
		k[i]=k[i-1]*p;//判断数量级
	while(cin>>s)
	{
		if(s[0]=='.')
			break;
		int len=strlen(s);
		ha[-1]=0;
		for(int i=0;i<len;i++)
			ha[i]=ha[i-1]*p+s[i]-'A'+1;
		for(int i=1;i<=len;i++)
		{
			if(len%i!=0)
				continue;
			ull h=ha[i-1];
			int j;
			for(j=i-1;j<len;j+=i)
			{
				if(h!=(ha[j]-ha[j-i]*k[i]))
					break;
			}
			if(j>=len)
			{
				cout<<len/i<<endl;
				break;
			}
		}
	}
	return 0;
}

 

### 字符串哈希算法的工作原理 字符串哈希是一种通过特定的哈希函数将字符串转换为固定大小数值的技术。其核心在于设计一种高效的哈希函数,使得不同字符串能够被映射到不同的数值空间中,从而便于快速比较和查找。 #### 原理概述 字符串哈希利用多项式滚动哈希的思想来计算字符串哈希值。假设有一个字符串 `s` 和一个选定的基础值 `p`(通常是一个较大的质数),以及模数 `mod`(用于防止溢出)。那么,字符串 `s` 的哈希值可以表示为: \[ hash(s) = \sum_{i=0}^{n-1} s[i] \cdot p^i \mod mod \] 其中: - \( s[i] \) 是字符串第 i 位字符对应的 ASCII 或 Unicode 编码; - \( p \) 是基础值,一般取较大质数如 31, 97 等; - \( mod \) 是为了防止数值过大而设置的一个大素数。 这种方法的优点是可以在线性时间内预处理整个字符串哈希值,并支持常数时间内的子串查询[^1]。 #### 实现细节 以下是基于 Python 的字符串哈希实现方法: ```python def string_hash(s, base=31, mod=int(1e9+7)): hash_value = 0 power_of_base = 1 for char in s: # 将字符编码乘以其对应幂次并累加至总哈希值 hash_value = (hash_value + ord(char) * power_of_base) % mod power_of_base = (power_of_base * base) % mod return hash_value # 测试代码 test_string = "hello" print(string_hash(test_string)) ``` 此代码片段展示了如何逐字符构建字符串哈希值。每次迭代都将当前字符的编码与之前的结果相组合,最终得到完整的哈希值[^3]。 #### 子串哈希优化 如果需要频繁查询某个字符串的不同子串,则可以通过预先存储前缀哈希数组的方式加速操作。具体而言,定义前缀哈希数组如下: \[ prefix\_hash(i) = \sum_{j=0}^{i-1} s[j] \cdot p^j \mod mod \] 这样任意区间 `[l,r)` 的子串哈希可通过以下公式获得: \[ substring\_hash(l, r) = prefix\_hash(r) - prefix\_hash(l) \times p^l \mod mod \] 这一步骤显著降低了重复计算的时间开销[^1]。 ### 注意事项 尽管字符串哈希提供了高效的解决方案,但在实际应用中仍需注意可能发生的 **哈希冲突** 即使两个字符串完全不同也可能因随机因素产生相同哈希值。因此建议采用双哈希策略——即同时维护两套独立参数下的哈希表以降低误判率[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值