C语言并行爬虫(epoll),爬取服务器的16W个有效网页,通过爬取页面源代码进行确定性自动机匹配和布隆过滤器去重,对链接编号并写入url.txt文件,并通过中间文件和三叉树去除掉状态码非200的链接关系,因为匹配出来的链接不全都在服务器中,最后将正确的链接关系继续写入url.txt
源代码链接:
http://download.youkuaiyun.com/download/lncer7/10141454
Github链接:
C语言并行爬虫(epoll),爬取服务器的16W个有效网页,通过爬取页面源代码进行确定性自动机匹配和布隆过滤器去重,对链接编号并写入url.txt文件,并通过中间文件和三叉树去除掉状态码非200的链接关系,因为匹配出来的链接不全都在服务器中,最后将正确的链接关系继续写入url.txt
源代码链接:
http://download.youkuaiyun.com/download/lncer7/10141454
Github链接: