Scrapy 0.22.2 处理XML接口数据

陈小峰_iefreer

于 2014-10-10 23:54:29 发布

阅读量3.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： Web Scrapy 文章标签： scrapy python xpath xml

本文链接：https://blog.youkuaiyun.com/iefreer/article/details/39974249

Web 同时被 2 个专栏收录

345 篇文章

订阅专栏

Scrapy

9 篇文章

订阅专栏

本文详细介绍了如何使用Scrapy框架的XML Feed Spider处理XML数据，包括配置爬虫、解析XML节点以及提取所需信息的过程。

Scrapy的Spider支持处理HTML/XML/JSON/CSV等数据服务接口，以XML为例：

from scrapy import log
from scrapy.contrib.spiders import XMLFeedSpider
from myproject.items import TestItem

class MySpider(XMLFeedSpider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = ['http://www.techbrood.com/feed.xml']
    iterator = 'iternodes'  # This is actually unnecessary, since it's the default value
    itertag = 'item'

    def parse_node(self, response, node):
        log.msg('Hi, this is a <%s> node!: %s' % (self.itertag, ''.join(node.extract())))

        item = TestItem()
        item['id'] = node.xpath('@id').extract()
        item['name'] = node.xpath('name/text()').extract()
        item['description'] = node.xpath('description/text()').extract()
        return item

注意name/text()将从xml节点中去除xml标记而提取出实际内容。

参考文档：

http://doc.scrapy.org/en/latest/topics/spiders.html?highlight=xml%20parse#scrapy.contrib.spiders.XMLFeedSpider.parse_node

by iefreer