【Python自学笔记】Scrapy爬虫项目settings常用设置
注意:以下代码均在Scrapy项目中的settings中添加/修改
- 设置一个日子记录等级,去除无用日志
LOG_LEVEL="WARNING" # warning表示警告日志
日志信息的种类:
ERROR : 一般错误
WARNING : 警告
INFO : 一般的信息
DEBUG : 调试信息
默认的显示级别是 DEBUG
设置日志信息指定输出:
在settings.py配置文件中,加入LOG_LEVEL = ‘指定日志信息种类’即可。
LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。
- 把robots设置为False,这样就可以不遵守网站爬虫规则
ROBOTSTXT_OBEY = False
- 添加请求头,模拟浏览器发送请求
# 把这条注释取消,并通过浏览器调试工具获得UWER_AGENT
#USER_AGENT = 'ctwp_spider (+http://www.yourdomain.com)'
# 如下示例
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'