def parse_page1(self, response):
return scrapy.Request(url, callback=self.parse_page2)
def parse_page2(self, response):
self.logger.info(response.url)
meta使用方法一定要学会:
request.meta['item'] = item
item =response.meta['item']
两个不同解析函数之间进行传递参数方法。
requests的子类FormRequests的使用方法:
其中formdata的字典值可以是登录用户名和密码。
response的方法:
response.xpath
response.css
response还有一些子类,这里不再详细叙述
本文介绍了使用Scrapy框架进行网页爬取的具体方法,包括如何通过定义不同的解析函数来实现页面内容的逐步处理,以及如何利用Request对象的meta属性在不同解析函数间传递数据。此外,还讲解了FormRequest子类的使用,以及response对象中xpath和css方法的应用。
3万+

被折叠的 条评论
为什么被折叠?



