简单实现根据Td-idf实现语句相似度

该博客介绍如何运用TD-IDF方法,通过词频统计,计算并比较两个语句之间的相似度,前提是语句已进行分词处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用词频来计算两个语句的相似度,假设语句已经使用分词工具分好









	public class Similar {
	

		public static double getSimilarity(Vector<String> T1, Vector<String> T2) throws Exception {
		    int size = 0 , size2 = 0 ;
		    double sum=0;
		    if ( T1 != null && ( size = T1.size() ) > 0 && T2 != null && ( size2 = T2.size() ) > 0 ) {
		         
		    	Set<String> set=new HashSet<String>();
		     	Map<String, Integer> s1 = new HashMap<String, Integer>();
		    	Map<String, Integer> s2= new HashMap<String, Integer>();
		    	//获取T1,T2所有的不重复单词
		    	for (int i = 0; i < size; i++) {
					set.add(T1.get(i));
				}
		    	for(int j=0;j<size2;j++){
		    		set.add(T2.get(j));
		    		
		    	}
		    	//计算每个向量中的词语出现的次数
		    	 for (String string : set) {
		    		int count=0;
		    	    int count1=0;
					for (String a1 : T1) {
						if (a1.equals(string)) {
							count++;
						}
				
《基于检索增强生成(RAG)的多场景问答系统》 一、项目背景 针对目标公司业务,设计一个融合传统检索技术与大模型生成能力的问答系统,重点解决以下问题: 简单问题:通过高效检索快速返回标准答案(如产品FAQ) 复杂问题:调用大模型生成解释性答案,并利用检索结果约束生成内容可信度 内容安全:通过相似度检测拦截重复/低质用户提问,降低服务器负载 二、技术架构 mermaid graph TD A[用户提问] --> B{问题类型判断} B -->|简单问题| C[检索式问答] B -->|复杂问题| D[生成式问答] C --> E[返回结构化答案] D --> E E --> F[答案去重与缓存] F --> G[用户反馈] G --> H[模型迭代] subgraph 检索式问答 C1[(知识库)] --> C2[BM25/Jaccard检索] C2 --> C3[相似度排序] end subgraph 生成式问答 D1[微调大模型] --> D2[Prompt工程] D2 --> D3[检索增强生成] end 三、核心模块与代码关联 原代码模块 迁移应用场景 升级策略 情感分析代码 用户意图分类 将情感标签替换为问题类型(简单/复杂) LSTM模型代码 微调轻量化大模型(如T5-small) 将LSTM替换为Transformer架构 相似度检测代码 答案去重与缓存 Jaccard→余弦相似度+Sentence-BERT 四、关键技术实现 1. 混合问答路由(复用情感分析逻辑) def route_question(question): # 使用预训练模型判断问题复杂度 inputs = tokenizer(question, return_tensors="pt") outputs = classifier_model(**inputs) prob_complex = torch.softmax(outputs.logits, dim=1)[0][1] return "生成式" if prob_complex > 0.7 else "检索式" 2. 检索增强生成(融合代码2/3)from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration # 初始化RAG模型 tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq") retriever = RagRetriever.from_pretrained("facebook/rag-sequence-nq", index_name="exact") model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq") def answer_with_rag(question): inputs = tokenizer(question, return_tensors="pt") outputs = model.generate(input_ids=inputs["input_ids"]) return tokenizer.decode(outputs[0], skip_special_tokens=True) 3. 动态知识更新(复用相似度检测) python 复制 class KnowledgeManager: def __init__(self): self.knowledge_base = [] def add_document(self, doc): # 去重检查(复用代码3的Jaccard逻辑) segments = segment(doc) for existing in self.knowledge_base: if jaccard_similarity(segments, existing['segments']) > 0.8: return False self.knowledge_base.append({'text': doc, 'segments': segments}) return True 五、面试展示策略 1. 技术深度表达 检索优化: “我将电影评论分析中的词频统计升级为BM25算法,解决TF-IDF对长文档不敏感的问题,在开放域问答任务中检索准确率提升18%” 生成控制: “复用LSTM训练经验,使用LoRA技术对Llama-2进行高效微调,在保持90%性能的同时减少70%训练成本” 2. 业务思维体现 成本控制: “通过问题分类路由,对80%的简单问题使用检索式回答,相比全量调用大模型,API成本降低65%” 效果验证: “在500条测试数据上,混合系统的回答准确率达到92%,纯生成方案为85%,响应时间从3.2s降至1.4s” 3. 难点突破 冷启动问题: “初期缺乏标注数据时,使用SimCSE无监督训练相似度模型,实现检索模块的零样本启动” 生成幻觉抑制: “通过检索结果约束生成空间,加入惩罚项使模型更关注知识库内容,虚构回答比例从23%降至7%” 六、延伸建议 部署演示:用Gradio搭建Web Demo,展示实时问答流程 性能对比:提供不同方案(纯检索/纯生成/混合)的准确率-耗时曲线图 优化路线:提出引入强化学习实现自动路由策略的下一步计划 帮我完善以上文档提供的代码
最新发布
03-08
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值