网络爬虫

qq_26548003

于 2019-10-24 23:09:44 发布

阅读量316

点赞数

文章标签：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_26548003/article/details/102734228

版权

互联网虽然复杂，本质上只是一个一个网页罢了。把网页当做一个个节点，把那些网址当做一条条到达节点的路线，点击链接，就是通过这条路线到达对应的目的地（节点）。通过超链接任何一个网页出发，用遍历的方法，自动将访问过的网页保存起来，拥有这样功能的程序就是网络爬虫。
世界上第一个网络爬虫是麻省理工学院的学生Matthew Gray在1993年完成的。他给自己的程序起名叫做“互联网漫游者”。通过这个名字我们就知道这个程序的功能了。
网络爬虫如何工作呢？首先从一个门户网站首页开始，通过找到这个网页中所有的超链接，访问，下载和分析这些网页，再找到这些网页中所有的超链接。。。。以此类推就能下载整个互联网的网页。同时要记录那些网站已经访问过了，避免重复下载。一般这些信息都是用“哈希表”来记录的。
网页的数量如此庞大以至于需要几千甚至几万台服务器，通过高速网络连接起来，才可以建立起一个商业的网络爬虫。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。