网络爬虫流程与注意事项

最新推荐文章于 2023-10-05 22:47:49 发布

原创

最新推荐文章于 2023-10-05 22:47:49 发布 · 1.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #开发语言

本文介绍了网络爬虫的工作流程，包括设置采集目标、处理HTTP请求、解析网页、智能解析方法（readability、疏密度判断、Scrapyly自学习、深度学习）以及数据存储（文件、数据库、搜索引擎、云存储）。同时强调了爬虫的注意事项，如处理相对链接、设置代理、限制下载速度和避免爬虫陷阱。

在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 基本原理等。
网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。
爬虫流程：
1、设置采集目标网站（主页）并获取网站数据。
2、当服务器无法访问时，按照指定的重试次数尝试重新下载页面。
3、在需要的时候设置用户代理或隐藏真实IP，否则可能无法访问页面。
4、对获取的页面进行必要的解码操作然后抓取出需要的信息。
5、在获取的页面中通过某种方式（如正则表达式）抽取出页面中的链接信息。
6、对链接进行进一步的处理（获取页面并重复上面的动作）。
7、将有用的信息进行持久化以备后续的处理。
爬虫的解析与储存
1、解析
对于解析来说，对于 HTML 类型的页面来说，常用的解析方法其实无非那么几种，正则、XPath、CSS Selector，另外对于某些接口，常见的可能就是 JSON、XML 类型，使用对应的库进行处理即可。最后，如果你的时间不是很紧张，并且又想快速的python提高，最重要的是不怕吃苦，建议你可以架尉♥信（同音）：2028979958 ，那个真的很不错，很多人进步都很快，需要你不怕吃苦哦！大家可以去添加上看一下~
这些规则和解析方法其实写起来是很繁琐的，如果我们要爬上万个网站，如果每个网站都去写对应的规则，那么不就太累了吗？所以智能解析便是一个需求。
智能解析意思就是说，如果能提供一个页面，算法可以自动来提取页面的标题、正文、日期等内容，同时把无用的信息给刨除，例如上图，这是 Safari 中自带的阅读模式自动解析的结果。
对于智能解析，下面分为四个方法进行了划分：
• readability 算法，这个算法定义了不同区块的不同标注集合，通过权重计算来得到最可能的区块位置。
• 疏密度判断，计算单位个数区块内的平均文本内容长度，根据疏密程度来大致区分。