在最近的开发过程中,写了一个无线循环爬取某网页的内容程序。当程序跑了两天后,就回出现UnknownHostException错误,即使我把DNS绑定了 也会出现无法解析的错误。最后我发现有时候会连带着报错 open too many files 错误。
百度以后发现,在linux下 可以用lsof -p ID(进程) 查询某个进程打开的文件数,进程号可以用ps aux |grep xxx获取,这时会发现大量的无法识别的类型为sock的文件。(进程默认的最大打开文件数为1024),最后我推测可能是对于HttpClient 定义的client 当请求对方响应失败,句柄消失后,并不会被当做垃圾回收,而是被持续当做一个打开的文件。当积累到最大打开数量时,client无法在做TCP请求,所以会出现UnknownHostException, 同时也报了 open too many files 的错误。
这时,我的处理是使用org.apache.http.impl.client.CloseableHttpClient类 在每次使用完成后,关闭client,就同时解决了以上两个问题。
本文详细介绍了如何在Linux环境下解决无线循环爬取网页时遇到的UnknownHostException与open too many files错误。通过使用org.apache.http.impl.client.CloseableHttpClient类并确保在每次使用后关闭client,成功解决了这两个问题。
5万+

被折叠的 条评论
为什么被折叠?



