Hdu 2222 Keywords Search

Keywords Search

Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others)
Total Submission(s): 25192    Accepted Submission(s): 8240


Problem Description
In the modern time, Search engine came into the life of everybody like Google, Baidu, etc.
Wiskey also wants to bring this feature to his image retrieval system.
Every image have a long description, when users type some keywords to find the image, the system will match the keywords with description of image and show the image which the most keywords be matched.
To simplify the problem, giving you a description of image, and some keywords, you should tell me how many keywords will be match.
 

Input
First line will contain one integer means how many cases will follow by.
Each case will contain two integers N means the number of keywords and N keywords follow. (N <= 10000)
Each keyword will only contains characters 'a'-'z', and the length will be not longer than 50.
The last line is the description, and the length will be not longer than 1000000.
 

Output
Print how many keywords are contained in the description.
 

Sample Input
1 5 she he say shr her yasherhs
 

Sample Output
3
 

Author
Wiskey
 

Recommend
lcy

模版题:AC自动机

注意,输入的keyword可以重复。


#include<cstdio>
#include<cstring>
#include<queue>

using namespace std;

const int maxnode=600000;
const int SIGMA_SIZE=26;

int ch[maxnode][SIGMA_SIZE];
int val[maxnode],f[maxnode],last[maxnode];
int sz,Count;													//结点总数
char S[1100000];

int idx(char c)											//字符c的编号
{
	return c-'a';
}

void print(int i,int j)
{
	if(j && val[j]!=-1){
		Count+=val[j];	val[j]=-1;
//		printf("%d %d %d\n",i,j,val[j]);
		print(i,last[j]);
	}
}
//插入字符串s,附加信息为v。注意v必须非0,因为0代表“本结点不是单词结点”
void insert(char *s,int v)
{
	int u=0,n=strlen(s);
	for(int i=0;i<n;i++){
		int c=idx(s[i]);
		if(!ch[u][c]){                                           //结点不存在
			memset(ch[sz],0,sizeof(ch[sz]));
			val[sz]=0;											//中间结点的附加信息为0
			ch[u][c]=sz++;										//新建结点
		}
		u=ch[u][c];												//往下走
	}
	val[u]+=v;													//字符串的最后一个字符的附加信息为v
}

void getFail()
{
	queue<int> q;
	f[0]=0;

	//初始化队列
	for(int c=0;c<SIGMA_SIZE;c++)
	{
		int u=ch[0][c];
		if(u)
		{
			f[u]=0;	q.push(u);	last[u]=0;
		}
	}

	//按BFS顺序计算失配函数
	while(!q.empty())
	{
		int r=q.front();	q.pop();
		for(int c=0;c<SIGMA_SIZE;c++)
		{
			int u=ch[r][c];
			if(!u)
				continue;
			q.push(u);
			int v=f[r];
			while(v && !ch[v][c])   v=f[v];
			f[u]=ch[v][c];
			last[u]=val[f[u]]?f[u]:last[f[u]];
		}
	}
}

//在文本串T中找模版
void find(char *T)
{
	int n=strlen(T);
	int j=0;											//当前结点编号,初始为根结点
	for(int i=0;i<n;i++)								//文本串当前指针
	{
		int c=idx(T[i]);
		while(j && !ch[j][c])    j=f[j];				//顺着失配边走,直到可以匹配
		j=ch[j][c];
		if(val[j])
			print(i,j);
		else if(last[j])
			print(i,last[j]);
	}
}

int main()
{
	int T,N,i;
	char sh[100];
	scanf("%d",&T);
	while(T--)
	{
		scanf("%d",&N);
		Count=0;
		sz=1;	memset(ch[0],0,sizeof(ch[0]));			//Tri树的初始化
		for(i=1;i<=N;i++)
		{
			scanf("%s",sh);
			insert(sh,1);
		}
		getFail();
		scanf("%s",S);
		find(S);
		printf("%d\n",Count);
	}

	return 0;
}


 
资源下载链接为: https://pan.quark.cn/s/140386800631 通用大模型文本分类实践的基本原理是,借助大模型自身较强的理解和推理能力,在使用时需在prompt中明确分类任务目标,并详细解释每个类目概念,尤其要突出类目间的差别。 结合in-context learning思想,有效的prompt应包含分类任务介绍及细节、类目概念解释、每个类目对应的例子和待分类文本。但实际应用中,类目和样本较多易导致prompt过长,影响大模型推理效果,因此可先通过向量检索缩小范围,再由大模型做最终决策。 具体方案为:离线时提前配置好每个类目的概念及对应样本;在线时先对给定query进行向量召回,再将召回结果交给大模型决策。 该方法不更新任何模型参数,直接使用开源模型参数。其架构参考GPT-RE并结合相关实践改写,加入上下文学习以提高准确度,还使用BGE作为向量模型,K-BERT提取文本关键词,拼接召回的相似例子作为上下文输入大模型。 代码实现上,大模型用Qwen2-7B-Instruct,Embedding采用bge-base-zh-v1.5,向量库选择milvus。分类主函数的作用是在向量库中召回相似案例,拼接prompt后输入大模型。 结果方面,使用ICL时accuracy达0.94,比bert文本分类的0.98低0.04,错误类别6个,处理时添加“家居”类别,影响不大;不使用ICL时accuracy为0.88,错误58项,可能与未修改prompt有关。 优点是无需训练即可有较好结果,例子优质、类目界限清晰时效果更佳,适合围绕通用大模型api打造工具;缺点是上限不高,仅针对一个分类任务部署大模型不划算,推理速度慢,icl的token使用多,用收费api会有额外开销。 后续可优化的点是利用key-bert提取的关键词,因为核心词语有时比语意更重要。 参考资料包括
内容概要:本文详细介绍了哈希表及其相关概念和技术细节,包括哈希表的引入、哈希函数的设计、冲突处理机制、字符串哈希的基础、哈希错误率分析以及哈希的改进与应用。哈希表作为一种高效的数据结构,通过键值对存储数据,能够快速定位和检索。文中讨论了整数键值和字符串键值的哈希方法,特别是字符串哈希中的多项式哈希及其优化方法,如双哈希和子串哈希的快速计算。此外,还探讨了常见的冲突处理方法——拉链法和闭散列法,并提供了C++实现示例。最后,文章列举了哈希在字符串匹配、最长回文子串、最长公共子字符串等问题中的具体应用。 适合人群:计算机科学专业的学生、算法竞赛选手以及有一定编程基础并对数据结构和算法感兴趣的开发者。 使用场景及目标:①理解哈希表的工作原理及其在各种编程任务中的应用;②掌握哈希函数的设计原则,包括如何选择合适的模数和基数;③学会处理哈希冲突的方法,如拉链法和闭散列法;④了解并能运用字符串哈希解决实际问题,如字符串匹配、回文检测等。 阅读建议:由于哈希涉及较多数学知识和编程技巧,建议读者先熟悉基本的数据结构和算法理论,再结合代码实例进行深入理解。同时,在实践中不断尝试不同的哈希策略,对比性能差异,从而更好地掌握哈希技术。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值