python 爬虫总结

最新推荐文章于 2023-04-09 11:43:33 发布

李御风

最新推荐文章于 2023-04-09 11:43:33 发布

阅读量452

点赞数 3

分类专栏： python 爬虫

本文链接：https://blog.youkuaiyun.com/yufengli_/article/details/85620936

版权

python 同时被 2 个专栏收录

8 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

在上一家公司写了一年的爬虫，这里做个总结。

爬虫构成

爬虫主要包含采集模块，解析模块，存储模块还有清洗模块。有些抓取整个网页的爬虫可能没有清洗模块，但解析模块是一定会有的，因为需要对网页解析提取出有用的url，放到url列表中。

采集模块主要功能是访问url网页，下载网页，然后交给解析模块，进行解析，提取其中符合条件的url，如果要在线清洗，还需要调用清洗模块，提取网页中特定的数据，最后将结果交给存储模块，存储模块类似一个输出组件，可以将数据存入到数据库，写入集群，直接生成文件等。

反反爬

一些网站不愿意爬虫访问，所以设定了反爬机制，这个时候，我们就要在代码里添加反反爬代码。常见的反反爬方法有：
1）cookie，主要针对需要登录账号的反爬机制，可以准备一个池子，访问时随机从中选取一个，避免总是用一个账号用久了被拉入黑名单
2）代理IP，主要针对有访问次数限制的反爬机制，不过免费的代理IP（有网站提供）基本上用不了几个，买的也不怎样
3）动态拨号VPS，超级大杀器。
4）控制访问频率，加个sleep n（随机生成）的机制，与对方程序员合作愉快！