一步一步开发文件搜索 (一)

本文介绍了一种在Windows环境下使用C++实现的高效文件搜索与索引构建的小型程序。通过遍历磁盘并建立文件索引来加速搜索过程,程序支持在不同磁盘上扫描文件,并为文件创建索引,从而提高文件查找速度。
 

              前一段时间我需要找个文件,但是我又不记得文件放在哪里了。我用自带的搜索文件系统搜索很慢。这个时候我就有写一个类似的搜索文件小程序。
通过建立索引的方式来写应该搜索速度将会很快速。下面就说说开发这个小程序。
  我写的这个小程序是在win32 console下。先来看看这个程序运行后的效果。
 
都是通过简单的命令类型来执行相印的操作。其实写一个这样的小程序无非就是两个关键点:1,是搜索所有文件。2.为所有文件建立索引。
    下面来一步一步的讲解程序开发流程。
    (一).扫描存在磁盘
 首先。我们需要搜索所有磁盘的文件。先找到所有磁盘。
在扫描磁盘定义个CScanDisk的类。

UINT CScanDisk::GetDriverTypes()
{
 char driver[10];
 UINT uDriver;

 DWORD dwDriver = GetLogicalDrives();
 bitset<16> bs(dwDriver);
 for(size_t i=0; i < bs.size(); i++ )
 {
  if( bs[i] == 1 )
  {
   sprintf_s(driver,sizeof(driver),"%c:",'A' + i );
   uDriver = GetDriveType( StringUtil::s2ws(driver ).c_str());
   switch(uDriver)
   {
   case DRIVE_FIXED:
   //case DRIVE_NO_ROOT_DIR:
   //case DRIVE_REMOVABLE:
               veDiskNumber.push_back( driver );
     // cout<<driver<<endl;
      break;
   default:
    break;
   }
  }
 }
 if( veDiskNumber.size() <= 0 )
 {
  cout<<"没找到磁盘"<<endl;
 }
 return 0;
}



通过GetLogicalDrives()函数获取存在的磁盘或移动磁盘。由于返回的DWORD类型的值。二进制表示是否存在磁盘
如:0011100000000000 从‘A'开始对应。存在的磁盘:C,D,E.在判断二进制是否为1.
我这里采用STL的bitset来判断。当然也可以采用移位的方式,或者其他方式也可以。
不过我还是觉得用这种方式比较直观。如果存在磁盘。则可以通过GetDriveType来判断磁盘类型。
返回的类型可能有:
DRIVE_UNKNOW
The drive type cannot be determined.
DRIVE_NO_ROOT_DIR
The root path is invalid, for example, no volume is mounted at the path.
DRIVE_REMOVABLE
The drive is a type that has removable media, for example, a floppy drive or removable hard disk.
DRIVE_FIXED
The drive is a type that cannot be removed, for example, a fixed hard drive.
DRIVE_REMOTE
The drive is a remote (network) drive.
DRIVE_CDROM
The drive is a CD-ROM drive.
DRIVE_RAMDISK
The drive is a RAM disk.

如果你是用VC2005来编写。且采用UNICODE的编码。你还必须将你传入参数的char 类型转为 wchar_t类型。
(至于窄字节转宽字节。或宽字节转窄字节的函数在后面讲解。
函数的具体用法还可以参照MSDN.
在保存获取所存在磁盘数据,我声明了一个STL的vector<string>类型变量。程序中我也比较喜欢用STL,字符串
用C++标准的string类型变量来保存。
veDiskNumber.push_back( driver );

(二)扫描磁盘文件。
 
  扫描磁盘文件肯定的采用线程来操作。如何启用线程。且需要启动多少线程。是扫描的文件速度的关键。
我这里采用的方式可能不是最好的。
  我采用的先顺序的扫描各磁盘。在各磁盘里面每个文件夹启用一个线程。先每个线程启用后扫描的文件信息写入各自
的文件信息记录文件。最后再将各个线程记录的文件写入一个总的记录文件。

 UINT CScanDisk::ScanDisk()
{
    FILE *fpAllFile;
    FILE *fpSubFile;
 if( fopen_s( &fpAllFile, FILE_DATA,"wb") != 0 )
 {
  cerr<<"Open FILE_DATA Error!"<<__FILE__<<__LINE__<<endl;
  return -1;
 }
    
    size_t count;
 if( veDiskNumber.size() <= 0 )
 {
  return -1;
 }
 CreateDirectory(_T("Data"),NULL );

    for( count=0; count< veDiskNumber.size(); count++)
 {
      ScanSubdirectory( veDiskNumber[count], count );//各磁盘的扫描
 }
 long length = 0;
 for( count=0; count< veDiskNumber.size(); count++)
  {
  char  filename[100];
  sprintf_s( filename, sizeof( filename ),"Data/AllFile%d.ind", count );
        if( fopen_s( &fpSubFile,filename,"rb" ) != 0 )
  {
   cerr<<"Open File Error"<<__FILE__<<__LINE__<<endl;
   return -1;
  }
  fseek(fpSubFile, 0L, SEEK_END);
  length = ftell(fpSubFile);

  if( length > 8 * MEGA )
  {

  }
        long filepos = 0L;
  do{
   buffer = new char[  length + 1 ];
   memset(buffer,0x00,sizeof(buffer));
   fseek( fpSubFile, filepos, SEEK_SET );
   fread( buffer,length,1,fpSubFile );
   fwrite( buffer,length, 1, fpAllFile );
   delete buffer;
   filepos = filepos + length;   
   length = length - 8 * MEGA;

  }while( (length - 8 * MEGA) > 0 || length > 0 );
  fclose( fpSubFile );
  }
 fclose( fpAllFile );
 cout<<"Main Done"<<endl;
 return 0;
}


 

在写入汇总文件时我采用大块的数据8M一次读出写入。减少IO写入次数。

在个文件夹调用线程。ScanSubdirectory 同时需要先扫描磁盘的根存在文件夹的记录。
然后在启用线程去扫描各自的文件夹。
veSubDir是保存文件价的信息。
传入线程的结构体信息。

typedef struct  
{
 size_t disk;
 size_t subdirectory;
 string folder;
}DISKINFO;

   for( count = 0; count < veSubDir.size(); count++ )
   {
     
   
   arg[count] = new DISKINFO;
   arg[count]->disk = id;
   arg[count]->subdirectory = count;
   arg[count]->folder = veSubDir[count];
         hThread[count] = CreateThread(NULL,0,(LPTHREAD_START_ROUTINE)ScanDirectory,
        (LPVOID)arg[count],0,&dThreadID[count]);
    
   Sleep(100);
   }



(三)文件扫描线程函数。
 扫描所有文件我们需要递归的去扫描。这里我采用STL的stack<string>变量来保存未扫描的文件夹。
下面是部分主要代码。同样我们也需要UINCODE字符的转换。

 WIN32_FIND_DATA fileFindData;
 do {
  strTpath = strPath + "\\*.*";
  HANDLE hFind = ::FindFirstFile(StringUtil::s2ws(strTpath).c_str(), &fileFindData);            
  if( hFind != INVALID_HANDLE_VALUE )
  {
   do 
   {
       if (fileFindData.cFileName[0] == '.')
           {
           continue;            //因为文件夹开始有"."和".."两个目录,要过滤掉
     }
    if ( fileFindData.dwFileAttributes & FILE_ATTRIBUTE_DIRECTORY )
    {
     strTemp = strPath + "\\";
     strTemp.append(StringUtil::ws2s(fileFindData.cFileName ));
     aHeap.push(strTemp);
    }
    else
    {
     strTemp = strPath + "\\";
     strTemp.append(StringUtil::ws2s(fileFindData.cFileName ));
     FileTimeToSystemTime(&(fileFindData.ftCreationTime),&sysTime);
     sprintf_s( fileCreateTime,sizeof(fileCreateTime),"%d年%d月%d日",
      sysTime.wYear,sysTime.wMonth,sysTime.wDay);
     FileTimeToSystemTime(&(fileFindData.ftLastWriteTime),&sysTime);
     sprintf_s( fileLastWriteTIme,sizeof(fileLastWriteTIme),"%d年%d月%d日",
      sysTime.wYear,sysTime.wMonth,sysTime.wDay);
     fprintf_s( fp,"-%s\t%s\t%12d\t%s\t%s\t\n",
                                StringUtil::ws2s(fileFindData.cFileName ).c_str(),strTemp.c_str(),
      fileFindData.nFileSizeLow ,fileCreateTime,fileLastWriteTIme );
   
    }
   } while (::FindNextFile(hFind, &fileFindData));
   if( aHeap.empty()) {
    break;
   }
   else
   {
    strPath = aHeap.top();
    aHeap.pop();
   }
  }
  else
  {
           fclose(fp);
   return -1;
  }
      FindClose(hFind); 
 }while (true);



  关于STL的stack的使用可以参考STL文档.这里重点就是采用递归扫描各文件以及读取和保存文件信息。

我们一步的动作就已经完成。

内容概要:文章以“智能网页数据标注工具”为例,深入探讨了谷歌浏览器扩展在毕业设计中的实战应用。通过开发具备实体识别、情感分类等功能的浏览器扩展,学生能够融合前端开发、自然语言处理(NLP)、本地存储与模型推理等技术,实现高效的网页数据标注系统。文中详细解析了扩展的技术架构,涵盖Manifest V3配置、内容脚本与Service Worker协作、TensorFlow.js模型在浏览器端的轻量化部署与推理流程,并提供了核心代码实现,包括文本选择、标注工具栏动态生成、高亮显示及模型预测功能。同时展望了多模态标注、主动学习与边缘计算协同等未来发展方向。; 适合人群:具备前端开发基础、熟悉JavaScript和浏览器机制,有定AI模型应用经验的计算机相关专业本科生或研究生,尤其适合将浏览器扩展与人工智能结合进行毕业设计的学生。; 使用场景及目标:①掌握浏览器扩展开发全流程,理解内容脚本、Service Worker与弹出页的通信机制;②实现在浏览器端运行轻量级AI模型(如NER、情感分析)的技术方案;③构建可用于真实场景的数据标注工具,提升标注效率并探索主动学习、协同标注等智能化功能。; 阅读建议:建议结合代码实例搭建开发环境,逐步实现标注功能并集成本地模型推理。重点关注模型轻量化、内存管理与DOM操作的稳定性,在实践中理解浏览器扩展的安全机制与性能优化策略。
基于Gin+GORM+Casbin+Vue.js的权限管理系统是个采用前后端分离架构的企业级权限管理解决方案,专为软件工程和计算机科学专业的毕业设计项目开发。该系统基于Go语言构建后端服务,结合Vue.js前端框架,实现了完整的权限控制和管理功能,适用于各类需要精细化权限管理的应用场景。 系统后端采用Gin作为Web框架,提供高性能的HTTP服务;使用GORM作为ORM框架,简化数据库操作;集成Casbin实现灵活的权限控制模型。前端基于vue-element-admin模板开发,提供现代化的用户界面和交互体验。系统采用分层架构和模块化设计,确保代码的可维护性和可扩展性。 主要功能包括用户管理、角色管理、权限管理、菜单管理、操作日志等核心模块。用户管理模块支持用户信息的增删改查和状态管理;角色管理模块允许定义不同角色并分配相应权限;权限管理模块基于Casbin实现细粒度的访问控制;菜单管理模块动态生成前端导航菜单;操作日志模块记录系统关键操作,便于审计和追踪。 技术栈方面,后端使用Go语言开发,结合Gin、GORM、Casbin等成熟框架;前端使用Vue.js、Element UI等现代前端技术;数据库支持MySQL、PostgreSQL等主流关系型数据库;采用RESTful API设计规范,确保前后端通信的标准化。系统还应用了单例模式、工厂模式、依赖注入等设计模式,提升代码质量和可测试性。 该权限管理系统适用于企业管理系统、内部办公平台、多租户SaaS应用等需要复杂权限控制的场景。作为毕业设计项目,它提供了完整的源码和论文文档,帮助学生深入理解前后端分离架构、权限控制原理、现代Web开发技术等关键知识点。系统设计规范,代码结构清晰,注释完整,非常适合作为计算机相关专业的毕业设计参考或实际项目开发的基础框架。 资源包含完整的系统源码、数据库设计文档、部署说明和毕
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值