前一段时间我需要找个文件,但是我又不记得文件放在哪里了。我用自带的搜索文件系统搜索很慢。这个时候我就有写一个类似的搜索文件小程序。
通过建立索引的方式来写应该搜索速度将会很快速。下面就说说开发这个小程序。
我写的这个小程序是在win32 console下。先来看看这个程序运行后的效果。
都是通过简单的命令类型来执行相印的操作。其实写一个这样的小程序无非就是两个关键点:1,是搜索所有文件。2.为所有文件建立索引。
下面来一步一步的讲解程序开发流程。
(一).扫描存在磁盘
首先。我们需要搜索所有磁盘的文件。先找到所有磁盘。
在扫描磁盘定义个CScanDisk的类。
UINT CScanDisk::GetDriverTypes()
{
char driver[10];
UINT uDriver;
DWORD dwDriver = GetLogicalDrives();
bitset<16> bs(dwDriver);
for(size_t i=0; i < bs.size(); i++ )
{
if( bs[i] == 1 )
{
sprintf_s(driver,sizeof(driver),"%c:",'A' + i );
uDriver = GetDriveType( StringUtil::s2ws(driver ).c_str());
switch(uDriver)
{
case DRIVE_FIXED:
//case DRIVE_NO_ROOT_DIR:
//case DRIVE_REMOVABLE:
veDiskNumber.push_back( driver );
// cout<<driver<<endl;
break;
default:
break;
}
}
}
if( veDiskNumber.size() <= 0 )
{
cout<<"没找到磁盘"<<endl;
}
return 0;
}
通过GetLogicalDrives()函数获取存在的磁盘或移动磁盘。由于返回的DWORD类型的值。二进制表示是否存在磁盘
如:0011100000000000 从‘A'开始对应。存在的磁盘:C,D,E.在判断二进制是否为1.
我这里采用STL的bitset来判断。当然也可以采用移位的方式,或者其他方式也可以。
不过我还是觉得用这种方式比较直观。如果存在磁盘。则可以通过GetDriveType来判断磁盘类型。
返回的类型可能有:
DRIVE_UNKNOW
The drive type cannot be determined.
DRIVE_NO_ROOT_DIR
The root path is invalid, for example, no volume is mounted at the path.
DRIVE_REMOVABLE
The drive is a type that has removable media, for example, a floppy drive or removable hard disk.
DRIVE_FIXED
The drive is a type that cannot be removed, for example, a fixed hard drive.
DRIVE_REMOTE
The drive is a remote (network) drive.
DRIVE_CDROM
The drive is a CD-ROM drive.
DRIVE_RAMDISK
The drive is a RAM disk.
如果你是用VC2005来编写。且采用UNICODE的编码。你还必须将你传入参数的char 类型转为 wchar_t类型。
(至于窄字节转宽字节。或宽字节转窄字节的函数在后面讲解。
函数的具体用法还可以参照MSDN.
在保存获取所存在磁盘数据,我声明了一个STL的vector<string>类型变量。程序中我也比较喜欢用STL,字符串
用C++标准的string类型变量来保存。
veDiskNumber.push_back( driver );
(二)扫描磁盘文件。
扫描磁盘文件肯定的采用线程来操作。如何启用线程。且需要启动多少线程。是扫描的文件速度的关键。
我这里采用的方式可能不是最好的。
我采用的先顺序的扫描各磁盘。在各磁盘里面每个文件夹启用一个线程。先每个线程启用后扫描的文件信息写入各自
的文件信息记录文件。最后再将各个线程记录的文件写入一个总的记录文件。
UINT CScanDisk::ScanDisk()
{
FILE *fpAllFile;
FILE *fpSubFile;
if( fopen_s( &fpAllFile, FILE_DATA,"wb") != 0 )
{
cerr<<"Open FILE_DATA Error!"<<__FILE__<<__LINE__<<endl;
return -1;
}
size_t count;
if( veDiskNumber.size() <= 0 )
{
return -1;
}
CreateDirectory(_T("Data"),NULL );
for( count=0; count< veDiskNumber.size(); count++)
{
ScanSubdirectory( veDiskNumber[count], count );//各磁盘的扫描
}
long length = 0;
for( count=0; count< veDiskNumber.size(); count++)
{
char filename[100];
sprintf_s( filename, sizeof( filename ),"Data/AllFile%d.ind", count );
if( fopen_s( &fpSubFile,filename,"rb" ) != 0 )
{
cerr<<"Open File Error"<<__FILE__<<__LINE__<<endl;
return -1;
}
fseek(fpSubFile, 0L, SEEK_END);
length = ftell(fpSubFile);
if( length > 8 * MEGA )
{
}
long filepos = 0L;
do{
buffer = new char[ length + 1 ];
memset(buffer,0x00,sizeof(buffer));
fseek( fpSubFile, filepos, SEEK_SET );
fread( buffer,length,1,fpSubFile );
fwrite( buffer,length, 1, fpAllFile );
delete buffer;
filepos = filepos + length;
length = length - 8 * MEGA;
}while( (length - 8 * MEGA) > 0 || length > 0 );
fclose( fpSubFile );
}
fclose( fpAllFile );
cout<<"Main Done"<<endl;
return 0;
}
在写入汇总文件时我采用大块的数据8M一次读出写入。减少IO写入次数。
在个文件夹调用线程。ScanSubdirectory 同时需要先扫描磁盘的根存在文件夹的记录。
然后在启用线程去扫描各自的文件夹。
veSubDir是保存文件价的信息。
传入线程的结构体信息。
typedef struct
{
size_t disk;
size_t subdirectory;
string folder;
}DISKINFO;
for( count = 0; count < veSubDir.size(); count++ )
{
arg[count] = new DISKINFO;
arg[count]->disk = id;
arg[count]->subdirectory = count;
arg[count]->folder = veSubDir[count];
hThread[count] = CreateThread(NULL,0,(LPTHREAD_START_ROUTINE)ScanDirectory,
(LPVOID)arg[count],0,&dThreadID[count]);
Sleep(100);
}
(三)文件扫描线程函数。
扫描所有文件我们需要递归的去扫描。这里我采用STL的stack<string>变量来保存未扫描的文件夹。
下面是部分主要代码。同样我们也需要UINCODE字符的转换。
WIN32_FIND_DATA fileFindData;
do {
strTpath = strPath + "\\*.*";
HANDLE hFind = ::FindFirstFile(StringUtil::s2ws(strTpath).c_str(), &fileFindData);
if( hFind != INVALID_HANDLE_VALUE )
{
do
{
if (fileFindData.cFileName[0] == '.')
{
continue; //因为文件夹开始有"."和".."两个目录,要过滤掉
}
if ( fileFindData.dwFileAttributes & FILE_ATTRIBUTE_DIRECTORY )
{
strTemp = strPath + "\\";
strTemp.append(StringUtil::ws2s(fileFindData.cFileName ));
aHeap.push(strTemp);
}
else
{
strTemp = strPath + "\\";
strTemp.append(StringUtil::ws2s(fileFindData.cFileName ));
FileTimeToSystemTime(&(fileFindData.ftCreationTime),&sysTime);
sprintf_s( fileCreateTime,sizeof(fileCreateTime),"%d年%d月%d日",
sysTime.wYear,sysTime.wMonth,sysTime.wDay);
FileTimeToSystemTime(&(fileFindData.ftLastWriteTime),&sysTime);
sprintf_s( fileLastWriteTIme,sizeof(fileLastWriteTIme),"%d年%d月%d日",
sysTime.wYear,sysTime.wMonth,sysTime.wDay);
fprintf_s( fp,"-%s\t%s\t%12d\t%s\t%s\t\n",
StringUtil::ws2s(fileFindData.cFileName ).c_str(),strTemp.c_str(),
fileFindData.nFileSizeLow ,fileCreateTime,fileLastWriteTIme );
}
} while (::FindNextFile(hFind, &fileFindData));
if( aHeap.empty()) {
break;
}
else
{
strPath = aHeap.top();
aHeap.pop();
}
}
else
{
fclose(fp);
return -1;
}
FindClose(hFind);
}while (true);
关于STL的stack的使用可以参考STL文档.这里重点就是采用递归扫描各文件以及读取和保存文件信息。
我们一步的动作就已经完成。