C++【模板】字符串哈希

本文介绍了如何使用C++模板实现字符串哈希,通过特定公式将字符串转化为整数,以达到快速验证字符串是否重复的目的。虽然可能出现哈希冲突,但可通过选择大素数作为参数p和mod来降低冲突概率。还提到了多重哈希的方法,虽然增加计算成本,但能提高哈希比较的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

介绍:关于字符串hash,一句话概括,就是把字符串有效的转化为一个整数

hash[i]=(hash[i-1]*p+idx(s[i]))%mod

for example:取p=13, mod=101,求abc对应的整数

hash[0]=1; 表示a映射1。

hash[1]=(hash[0]*13+idx(b))%101=15;表示ab映射15。

hash[2]=(hash[1]*13+idx(c))%101=97;  表示abc映射97。

同样的方法。我们可以将以下字符串进行映射:

abc ->97

bbc ->64

aba ->95

aadaabac ->35

这样,我们就可以记录下每一个字符串所对应的整数,若下一次出现一个字符串,查询整数是否出现过,就可以完成验证。

但是也有可能出现两个字符串对应一个整数。

调整方法:

调整p和mod,取p和mod都为较大的素数。  p取6~8位素数,mod一般取1e9+7或者1e9+9;

某种程度上,hash=乱搞,只要把他弄的越乱就越好,使得冲突概率最低。

常用的几种字符串hash方法:

多重hash的话,就是你用不同的两种或多种方式哈希,然后分别比对每一种哈希值是否相同——显然是增加了空间和时间,但也确实增加了其正确性。

#include<iostream>
using namespace std;
#include<string.h>
#include<string>
typedef unsigned long long ull;
int n,length;
#include<algorithm>
string a;
ull mod=1e9+7;
ull h[100010];
ull prime=233317;

ull hashw(string a)
{
	length =a.size();
	ull temp=((ull)a[0])%mod;
	for(int i=1;i<length;i++)
	{
		temp=(temp*prime+(ull)a[i])%mod;
	}
	return temp;
}

int main()
{
	cin>>n;
	int ans=1;
	for(int i=0;i<n;i++)
	{
		cin>>a;
		h[i]=hashw(a);
	}
	sort(h,h+n);
	for(int i=0;i<n-1;i++)
	{
		if(h[i]!=h[i+1])ans++;
	}
	cout<<ans<<endl;
	return 0;
 } 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值