以下内容可能不够完善,仅仅展示了个人零基础学习爬虫的心得,后续还会继续更新,希望对每一个初学者有帮助,若有错误的地方,欢迎随时指出
红线
不爬取公民隐私
不爬取受著作权保护的内容
不爬取国家事务,国防建设
请求数量和频率不能过多,否者无异于DDoS攻击
DDoS攻击:给服务器发送海量高频率请求,耗尽服务器资源
1.获取网页内容
通过requests库发送HTTP请求
可以通过查看网站的robots.txt文件,了解可爬取的网页路径
import requests
response=requests.get("https://movie.douban.com/top250")
print(response)
直接输出爬取的内容,得到的是一个response类的实例,代表服务器发回给我们的响应,后面的数字就为状态码
状态码
200 |
客户端请求成功 |
|
301 |
客户端被永久移动到新地址 |
需要进一步操作 |
400 |
客户端不能被服务器理解 |
|
401 |
请求未经授权 |
|
403 |
服务器拒绝提供服务 |
|
404 |
请求资源不存在 |
|
418 |
访问的网站有反爬虫机制 |
|
500/503 |