进入浏览器的开发者模式(F12),选取需要获取的节点,如果我们想获取一个列表,例如:

在li节点上右键,copy->copy xpath即可获取当前节点的Xpath路径,
直接复制如下:
/html/body/div[4]/div[1]/ul/li[1]
这个不能直接使用,这个是获取了li节点第一个元素,爬虫里我们需要获取一个集合,用来for循环,所以在爬虫开头里需要修改为:
/html/body/div[4]/div[1]/ul/li
代码示例:
#-----关键代码------
def parse(self, response):
for item in response.xpath('/html/body/div[4]/div[1]/ul/li'):
movImgUrl = item.xpath('a/img/@src').extract_first() #海报地址
detailPageUrl = item.xpath("a/@href").extract_first()#详情页地址
可见,如果需要获取 a标签里的图片地址,规则是:
"a/img/@src"
获取a标签里URL规则是:
"a/@href"
获取a括号中的文本,规则是:
"a/text()"
后面的.extract_first()提取第一

本文介绍了如何在Scrapy爬虫中利用XPath选择器获取网页元素。通过浏览器开发者工具获取XPath路径,然后根据需求修改为适用于爬虫的形式,如获取列表集合、图片URL、文本内容等。同时,针对包含分页的情况,展示了如何遍历每个分类及分页进行数据抓取。
最低0.47元/天 解锁文章
1650

被折叠的 条评论
为什么被折叠?



