最近在写一个搜索引擎,有个中间程序是分析分词结果文件,建立倒排索引。最初写的是单线程的,效率低到无语,于是又改成多线程的了。本以为万事大吉,可是在分析了将近2000文件的时候,效率低的和单线程的没什么区别了。打开任务管理器,线程数显示3(我设置的子线程数量最高为15,加上启动就有的,程序刚运行的时候线程数可以达到20个)。
百度了下,Windows单个程序的线程数是有上限的,一般只能开到2000个左右。而我的程序中为了方便,把每个子线程都设置为detach状态了。这个状态下,线程结束时其他线程并不能回收其资源,必须到程序退出时才可以。也就是说程序在处理了将近2000个文件时,系统资源已经耗尽了,所以效率降了下来。
知道了这点,问题就好解决了,把线程设为joinable(可结合)状态,在一个线程中等待每个子线程结束就可以了。

本文讨论了一个搜索引擎项目中遇到的问题:在处理大量分词结果文件建立倒排索引时,从单线程切换到多线程并未提升效率,反而在分析接近2000文件后效率降低。原因在于多线程环境下Windows系统线程数量限制导致资源耗尽。通过将线程设置为可结合状态,成功解决了问题。
998

被折叠的 条评论
为什么被折叠?



