
搜索引擎
huzhengnan
这个作者很懒,什么都没留下…
展开
-
网络爬虫系列之二:对下载页面进行链接解析
在我的上一篇博客中,通过URL就已经成功下载了第一个页面。然后我第二步的工作就是要通过这个已经下载好的页面得到更多的URL。在这篇博客中主要完成了对页面中的链接进行解析,并将它们拼成可以访问的样子。更多细致的工作需要在后面进行完善。原创 2014-04-04 20:42:30 · 9741 阅读 · 3 评论 -
网络爬虫系列之三:简单爬虫初步
一个能从初始链接持续爬取互联网资源的简单爬虫原创 2014-04-16 17:25:44 · 5221 阅读 · 1 评论 -
网络爬虫系列之一:通过URL下载网页
世界上第一个爬虫叫做"互联网漫游者(www wanderer)",是由MIT学生马修·格雷写的。我想他大概也是通过细心细致的观察后发现:互联网上的页面之间是有联系的。比如说,通过分析一个页面的链接,就能下载到其它页面。而且做起来可能没那么困难,就放手去尝试,第一个爬虫就成了! 初学爬虫,顺着自己的思路往下做。 第一个爬虫的第一个部分就是下载,同时也知道第二个部分原创 2014-03-29 20:54:36 · 11977 阅读 · 3 评论