一步一步开发文件搜索（一）_编程写文件搜索很难吗-优快云博客

本文介绍了一种在Windows环境下使用C++实现的高效文件搜索与索引构建的小型程序。通过遍历磁盘并建立文件索引来加速搜索过程，程序支持在不同磁盘上扫描文件，并为文件创建索引，从而提高文件查找速度。

              前一段时间我需要找个文件，但是我又不记得文件放在哪里了。我用自带的搜索文件系统搜索很慢。这个时候我就有写一个类似的搜索文件小程序。
通过建立索引的方式来写应该搜索速度将会很快速。下面就说说开发这个小程序。
我写的这个小程序是在win32 console下。先来看看这个程序运行后的效果。

都是通过简单的命令类型来执行相印的操作。其实写一个这样的小程序无非就是两个关键点：1，是搜索所有文件。2.为所有文件建立索引。
    下面来一步一步的讲解程序开发流程。
    （一）.扫描存在磁盘
首先。我们需要搜索所有磁盘的文件。先找到所有磁盘。
在扫描磁盘定义个CScanDisk的类。

UINT CScanDisk::GetDriverTypes()
{
 char driver[10];
 UINT uDriver;

 DWORD dwDriver = GetLogicalDrives();
 bitset<16> bs(dwDriver);
 for(size_t i=0; i < bs.size(); i++ )
 {
  if( bs[i] == 1 )
  {
   sprintf_s(driver,sizeof(driver),"%c:",'A' + i );
   uDriver = GetDriveType( StringUtil::s2ws(driver ).c_str());
   switch(uDriver)
   {
   case DRIVE_FIXED:
   //case DRIVE_NO_ROOT_DIR:
   //case DRIVE_REMOVABLE:
               veDiskNumber.push_back( driver );
     // cout<<driver<<endl;
      break;
   default:
    break;
   }
  }
 }
 if( veDiskNumber.size() <= 0 )
 {
  cout<<"没找到磁盘"<<endl;
 }
 return 0;
}

通过GetLogicalDrives()函数获取存在的磁盘或移动磁盘。由于返回的DWORD类型的值。二进制表示是否存在磁盘
如：0011100000000000 从‘A'开始对应。存在的磁盘：C,D,E.在判断二进制是否为1.
我这里采用STL的bitset来判断。当然也可以采用移位的方式，或者其他方式也可以。
不过我还是觉得用这种方式比较直观。如果存在磁盘。则可以通过GetDriveType来判断磁盘类型。
返回的类型可能有：
DRIVE_UNKNOW
The drive type cannot be determined.
DRIVE_NO_ROOT_DIR
The root path is invalid, for example, no volume is mounted at the path.
DRIVE_REMOVABLE
The drive is a type that has removable media, for example, a floppy drive or removable hard disk.
DRIVE_FIXED
The drive is a type that cannot be removed, for example, a fixed hard drive.
DRIVE_REMOTE
The drive is a remote (network) drive.
DRIVE_CDROM
The drive is a CD-ROM drive.
DRIVE_RAMDISK
The drive is a RAM disk.

如果你是用VC2005来编写。且采用UNICODE的编码。你还必须将你传入参数的char 类型转为 wchar_t类型。
(至于窄字节转宽字节。或宽字节转窄字节的函数在后面讲解。
函数的具体用法还可以参照MSDN.
在保存获取所存在磁盘数据，我声明了一个STL的vector<string>类型变量。程序中我也比较喜欢用STL,字符串
用C++标准的string类型变量来保存。
veDiskNumber.push_back( driver );

（二）扫描磁盘文件。

扫描磁盘文件肯定的采用线程来操作。如何启用线程。且需要启动多少线程。是扫描的文件速度的关键。
我这里采用的方式可能不是最好的。
我采用的先顺序的扫描各磁盘。在各磁盘里面每个文件夹启用一个线程。先每个线程启用后扫描的文件信息写入各自
的文件信息记录文件。最后再将各个线程记录的文件写入一个总的记录文件。

 UINT CScanDisk::ScanDisk()
{
    FILE *fpAllFile;
    FILE *fpSubFile;
 if( fopen_s( &fpAllFile, FILE_DATA,"wb") != 0 )
 {
  cerr<<"Open FILE_DATA Error!"<<__FILE__<<__LINE__<<endl;
  return -1;
 }
    
    size_t count;
 if( veDiskNumber.size() <= 0 )
 {
  return -1;
 }
 CreateDirectory(_T("Data"),NULL );

    for( count=0; count< veDiskNumber.size(); count++)
 {
      ScanSubdirectory( veDiskNumber[count], count );//各磁盘的扫描
 }
 long length = 0;
 for( count=0; count< veDiskNumber.size(); count++)
  {
  char  filename[100];
  sprintf_s( filename, sizeof( filename ),"Data/AllFile%d.ind", count );
        if( fopen_s( &fpSubFile,filename,"rb" ) != 0 )
  {
   cerr<<"Open File Error"<<__FILE__<<__LINE__<<endl;
   return -1;
  }
  fseek(fpSubFile, 0L, SEEK_END);
  length = ftell(fpSubFile);

  if( length > 8 * MEGA )
  {

  }
        long filepos = 0L;
  do{
   buffer = new char[  length + 1 ];
   memset(buffer,0x00,sizeof(buffer));
   fseek( fpSubFile, filepos, SEEK_SET );
   fread( buffer,length,1,fpSubFile );
   fwrite( buffer,length, 1, fpAllFile );
   delete buffer;
   filepos = filepos + length;   
   length = length - 8 * MEGA;

  }while( (length - 8 * MEGA) > 0 || length > 0 );
  fclose( fpSubFile );
  }
 fclose( fpAllFile );
 cout<<"Main Done"<<endl;
 return 0;
}

在写入汇总文件时我采用大块的数据8M一次读出写入。减少IO写入次数。

在个文件夹调用线程。ScanSubdirectory 同时需要先扫描磁盘的根存在文件夹的记录。
然后在启用线程去扫描各自的文件夹。
veSubDir是保存文件价的信息。
传入线程的结构体信息。

typedef struct  
{
 size_t disk;
 size_t subdirectory;
 string folder;
}DISKINFO;

   for( count = 0; count < veSubDir.size(); count++ )
   {
     
   
   arg[count] = new DISKINFO;
   arg[count]->disk = id;
   arg[count]->subdirectory = count;
   arg[count]->folder = veSubDir[count];
         hThread[count] = CreateThread(NULL,0,(LPTHREAD_START_ROUTINE)ScanDirectory,
        (LPVOID)arg[count],0,&dThreadID[count]);
    
   Sleep(100);
   }

（三）文件扫描线程函数。
扫描所有文件我们需要递归的去扫描。这里我采用STL的stack<string>变量来保存未扫描的文件夹。
下面是部分主要代码。同样我们也需要UINCODE字符的转换。

 WIN32_FIND_DATA fileFindData;
 do {
  strTpath = strPath + "\\*.*";
  HANDLE hFind = ::FindFirstFile(StringUtil::s2ws(strTpath).c_str(), &fileFindData);            
  if( hFind != INVALID_HANDLE_VALUE )
  {
   do 
   {
       if (fileFindData.cFileName[0] == '.')
           {
           continue;            //因为文件夹开始有"."和".."两个目录，要过滤掉
     }
    if ( fileFindData.dwFileAttributes & FILE_ATTRIBUTE_DIRECTORY )
    {
     strTemp = strPath + "\\";
     strTemp.append(StringUtil::ws2s(fileFindData.cFileName ));
     aHeap.push(strTemp);
    }
    else
    {
     strTemp = strPath + "\\";
     strTemp.append(StringUtil::ws2s(fileFindData.cFileName ));
     FileTimeToSystemTime(&(fileFindData.ftCreationTime),&sysTime);
     sprintf_s( fileCreateTime,sizeof(fileCreateTime),"%d年%d月%d日",
      sysTime.wYear,sysTime.wMonth,sysTime.wDay);
     FileTimeToSystemTime(&(fileFindData.ftLastWriteTime),&sysTime);
     sprintf_s( fileLastWriteTIme,sizeof(fileLastWriteTIme),"%d年%d月%d日",
      sysTime.wYear,sysTime.wMonth,sysTime.wDay);
     fprintf_s( fp,"-%s\t%s\t%12d\t%s\t%s\t\n",
                                StringUtil::ws2s(fileFindData.cFileName ).c_str(),strTemp.c_str(),
      fileFindData.nFileSizeLow ,fileCreateTime,fileLastWriteTIme );
   
    }
   } while (::FindNextFile(hFind, &fileFindData));
   if( aHeap.empty()) {
    break;
   }
   else
   {
    strPath = aHeap.top();
    aHeap.pop();
   }
  }
  else
  {
           fclose(fp);
   return -1;
  }
      FindClose(hFind); 
 }while (true);

关于STL的stack的使用可以参考STL文档.这里重点就是采用递归扫描各文件以及读取和保存文件信息。

我们一步的动作就已经完成。