利用 scrapy 抓取信息， xpath 选择节点返回结果为空

最新推荐文章于 2023-01-14 18:25:20 发布

原创最新推荐文章于 2023-01-14 18:25:20 发布 · 5.4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy #xpath

在Scrapy项目中遇到XPath选择节点返回空的问题，可以通过使用`remove_namespaces!`方法来处理Atom XML命名空间混淆，从而方便地访问元素。官方文档通过Github博客的atom订阅例子说明了这一方法的使用，解释了为何有时需要手动调用该方法，主要是因为性能考虑和防止与命名空间冲突。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘自 scrapy 官方文档

在处理爬虫项目时，完全去掉命名空间而仅仅处理元素名字，写更多简单/实用的XPath会方便很多。你可以为此使用 Selector.remove_namespaces() 方法。

以Github博客的atom订阅来解释这个情况。

首先，我们使用想爬取的url来打开shell:

$ scrapy shell https://github.com/blog.atom

一旦进入shell，我们可以尝试选择所有的 <link> 对象，可以看到没有结果(因为Atom XML命名空间混淆了这些节点):

>>> response.xpath("//link")
[]

但一旦我们调用 Selector.remove_namespaces() 方法，所有的节点都可以直接通过他们的名字来访问:

>>> response.selector.remove_namespaces()
>>> response.xpath("//link")
[<Selector xpath='//link' data=u'<link xmlns="http://www.w3.org/2005/Atom'>,
 <Selector xpath='//link' data=u'<link xmlns="http://www.w3.org/2005/Atom'>,
 ...

如果你对为什么命名空间移除操作并不总是被调用，而需要手动调用有疑惑。这是因为存在如下两个原因，按照相关顺序如下：