一、问题引入:
二、分析:
1.首先,我们从题目得知:
文件相似度 = 公共词汇 / 总词汇
2.注意的地方:
不考虑中文,文章里只考虑有英文。
3.输入: txt文件所在的文件夹目录
三、代码分析:
看代码 : 一般从main函数开始(程序入口同样也是main函数)
1. 函数1 :在指定文件夹下找到对应的文件类型(后缀)的所有文件名称。
所有文件名称保存在了传进来的参数vector<string>& files里面。 因为带了地址符&,可作用域不限于此函数体中。
/*
path: 指定目录
files: 保存结果
fileType: 指定的文件格式,如 .txt
*/
void getAllFiles(string path, vector<string>& files,string fileType) {
// 文件句柄
long hFile = 0;
// 文件信息
struct _finddata_t fileinfo;
string p;
if ((hFile = _findfirst(p.assign(path).append("\\*" + fileType).c_str(), &fileinfo)) != -1) {
do {
// 保存文件的全路径
files.push_back(p.assign(path).append("\\").append(fileinfo.name));
} while (_findnext(hFile, &fileinfo) == 0); //寻找下一个,成功返回0,否则-1
_findclose(hFile);
}
}
2. 关键算法 - 使用哈希思想的文本相似度算法
3.完整代码:
#include <stdio.h>
#include <ctype.h>
#include <string.h>
#include <cstring>
#include <stdlib.h>
#include <vector>
#include <iostream>
#include <set>
#include <io.h>
#include <string>
#include <vector>
#include <fstream>
#include<iostream>
#define P 524309
#define WordMaxLen 10 // 宏定义
usin