基于词频的文件相似度-算法应用

最新推荐文章于 2022-07-05 01:09:00 发布

原创

最新推荐文章于 2022-07-05 01:09:00 发布 · 2.1k 阅读

17 ·

CC 4.0 BY-SA版权

一、问题引入：

二、分析：
1.首先，我们从题目得知：

文件相似度 = 公共词汇 / 总词汇

2.注意的地方：

不考虑中文，文章里只考虑有英文。

3.输入： txt文件所在的文件夹目录

三、代码分析：

看代码：一般从main函数开始(程序入口同样也是main函数)

1. 函数1 ：在指定文件夹下找到对应的文件类型(后缀)的所有文件名称。

所有文件名称保存在了传进来的参数vector<string>& files里面。因为带了地址符&，可作用域不限于此函数体中。

/*
path: 指定目录
files: 保存结果
fileType: 指定的文件格式，如 .txt
*/
void getAllFiles(string path, vector<string>& files,string fileType) {
	// 文件句柄
	long hFile = 0;
	// 文件信息
	struct _finddata_t fileinfo; 
	string p;
	if ((hFile = _findfirst(p.assign(path).append("\\*" + fileType).c_str(), &fileinfo)) != -1) {
    do {
	    // 保存文件的全路径
	    files.push_back(p.assign(path).append("\\").append(fileinfo.name));
	} while (_findnext(hFile, &fileinfo) == 0); //寻找下一个，成功返回0，否则-1
	    _findclose(hFile);
	}
}

2. 关键算法 - 使用哈希思想的文本相似度算法

3.完整代码：

#include <stdio.h>
#include <ctype.h>
#include <string.h>
#include <cstring> 
#include <stdlib.h>
#include <vector> 
#include <iostream> 
#include <set>
#include <io.h>
#include <string>
#include <vector>
#include <fstream>
#include<iostream&g