爬虫/蜘蛛程序的制作(C#语言) 一

最新推荐文章于 2013-04-06 11:00:49 发布

转载最新推荐文章于 2013-04-06 11:00:49 发布 · 130 阅读

·

0

·

文章标签：

本文介绍了一种网络爬虫程序的设计思路，包括内容过滤、列表提取、页面递归抓取等步骤，并建议采用多线程提高执行效率。

   最近写了一个网络爬虫的程序，供大家参考
   程序的思路如下：
   一:需要过滤器过滤出所需的内容，得到一个内容集合；
   二：从过滤出的内容集合里过滤出所需要(比如：可以是新闻标题和地址)的列表；
   三：得到下一页的地址；
   四：根据得到的标题的链接去得到该页的详细内容；
   五：更加下一页的地址继续循环，ok！
   注意：在执行上，最好加线程进行执行，否则会影响效率。这个可以自己根据需求去加。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。