爬虫学习笔记
爬虫
爬取网页,Requests
爬取网站,Scrapy
爬取全网,大规模,搜索引擎
类人行为可以不遵守robots协议
request
包含Response和Request两个对象
其中,Response包含:
属性
说明
r.status_code
HTTP请求的返回状态,200表示连接成功,404表示失败
r.text
HTTP响应内容的字符串,即,url对应的页面内容
r.encoding
从HTTP header中猜测的响应内容编码方式
r.appare
原创
2021-08-22 21:15:10 ·
116 阅读 ·
0 评论