第一步
在爬虫py配置基本信息
class HttpbinSpider(scrapy.Spider):
name = 'httpbin'
allowed_domains = ['httpbin.org']
start_urls = ['http://httpbin.org/get']
def parse(self, response):
print('===============================================')
print(response.text)
print('===============================================')
yield scrapy.Request(self.start_urls[0],dont_filter=True)
第二步
在settings.py加入头文件
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
第三步
在middlewaregs.py 配置爬虫方法 需要手动安装 pip install fake_useragent
from fake_useragent import UserAgent
class HttpuaDownloaderMiddleware:
def process_request(self, request, spider):
request.headers['User-Agent']=UserAgent().random
return None
最后一步在启动文件启动
from scrapy import cmdline
cmdline.execute('scrapy crawl httpbin'.split(' '))
本文介绍了如何配置Scrapy爬虫,包括在Spider中设置起始URL、在settings.py中添加请求头,以及在middleware.py中使用fake_useragent库生成随机User-Agent,以避免被目标网站识别为爬虫。最后通过命令行启动爬虫进行抓取。
2854

被折叠的 条评论
为什么被折叠?



