Python爬虫(从requests到scrapy
爬虫
作者:Ychhh_
铺垫内容
爬虫分类
通用爬虫:
抓取系统重要组成部分
聚焦爬虫:
建立在通用爬虫的基础之上
抓取的为抓取页面局部内容
增量式爬虫:
检测网站中数据的更新情况
反爬机制
门户网站,可以通过指定相应的策略,防止爬虫程序进行数据的窃取
反反爬策略:破解反爬策略,获取数据
相关协议
robots.txt 协议:
君子协议。规定了网站中哪些数据可以被爬取,哪些不可以被爬取
http协议:
常用客户端与服务器的通信协议
常用请求头信息:
原创
2021-10-14 22:33:07 ·
957 阅读 ·
0 评论