基于词频的文件相似度-算法应用

一、问题引入:

二、分析:
1.首先,我们从题目得知:

文件相似度 =  公共词汇 / 总词汇 

2.注意的地方:

不考虑中文,文章里只考虑有英文

3.输入: txt文件所在的文件夹目录

 三、代码分析:

看代码 : 一般从main函数开始(程序入口同样也是main函数)

1.  函数1 :在指定文件夹下找到对应的文件类型(后缀)所有文件名称

 所有文件名称保存在了传进来的参数vector<string>& files里面。 因为带了地址符&,可作用域不限于此函数体中。

/*
path: 指定目录
files: 保存结果
fileType: 指定的文件格式,如 .txt
*/
void getAllFiles(string path, vector<string>& files,string fileType) {
	// 文件句柄
	long hFile = 0;
	// 文件信息
	struct _finddata_t fileinfo; 
	string p;
	if ((hFile = _findfirst(p.assign(path).append("\\*" + fileType).c_str(), &fileinfo)) != -1) {
    do {
	    // 保存文件的全路径
	    files.push_back(p.assign(path).append("\\").append(fileinfo.name));
	} while (_findnext(hFile, &fileinfo) == 0); //寻找下一个,成功返回0,否则-1
	    _findclose(hFile);
	}
}

2. 关键算法 -  使用哈希思想的文本相似度算法

3.完整代码:

#include <stdio.h>
#include <ctype.h>
#include <string.h>
#include <cstring> 
#include <stdlib.h>
#include <vector> 
#include <iostream> 
#include <set>
#include <io.h>
#include <string>
#include <vector>
#include <fstream>
#include<iostream>
#define P 524309
#define WordMaxLen 10 // 宏定义 
usin
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值