爬虫学习之配置信息整理
最近学习了爬虫与反爬虫技术,下面将自己的学习经验分享出来供大家参考!
爬虫的配置信息主要在setings.py文件中,主要分为
动态爬虫配置 和 分布式爬虫配置
此篇先分享动态爬虫配置(注意以下配置信息都在settings.py文件中进行)
- 在settings中有一条默认开启语句,表示遵循robots.txt规则。在这里我们应该将他置为False(具体的robots。txt原则请点击此链接)
ROBOTSTXT_OBEY = True
更改为:
ROBOTSTXT_OBEY = False
2.打开请求头(42行左右)并添加请求头信息(注意uesr-Agent为请求头信息,我使用的是谷歌浏览器,不同浏览器的请求头不一样)
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
}
3.打开爬虫中间件(50行左右)
添加 :‘scrapy_splash.SplashDeduplicateArgsMiddleware’: 100,
SPIDER_MIDDLEWARES = {
'spider4.middlewares.Spider4SpiderMiddleware': 543,
'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
4.打开下载中间件(55行左右)添加相应配置信息(注意我的代码中spider4为爬虫项目名,在不同项目中应修改为不同名称)
DOWNLOADER_MIDDLEWARES = {
'spider4.middlewares.Spider4DownloaderMiddleware': 543,
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
'spider4.middlewares.ProxiesMiddlewares':820,
}
5.添加SPLASH_URL配置(在本地运行,所以为本地链接地址)
SPLASH_URL = 'http://127.0.0.1:8050'
6.添加去重类配置信息:
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
7.最后设置一个Cache存储信息
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
博客新手,请多多指教