在写爬虫之前,还是需要了解一些爬虫的基础知识,如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 基本原理等。
网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过 网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接 地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
爬虫流程:
1、设置采集目标网站(主页)并获取网站数据。
2、当服务器无法访问时,按照指定的重试次数尝试重新下载页面。
3、在需要的时候设置用户代理或隐藏真实IP,否则可能无法访问页面。
4、对获取的页面进行必要的解码操作然后抓取出需要的信息。
5、在获取的页面中通过某种方式(如正则表达式)抽取出页面中的链接信息。
6、对链接进行进一步的处理(获取页面并重复上面的动作)。
7、 将有用的信息进行持久化以备后续的处理。
爬虫的解析与储存
1、解析
对于解析来说,对于 HTML 类型的页面来说,常用的解析方法其实无非那么几种,正则、XPath、CSS Selector,另外对于某些接口,常见的可能就是 JSON、XML 类型,使用对应的库进行处理即可。最后,如果你的时间不是很紧张,并且又想快速的python提高,最重要的是不怕吃苦,建议你可以架尉♥信(同音):2028979958 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~
这些规则和解析方法其实写起来是很繁琐的
网络爬虫流程与注意事项
最新推荐文章于 2025-03-26 11:32:43 发布