scrapy-items

最新推荐文章于 2025-09-13 23:06:41 发布

转载最新推荐文章于 2025-09-13 23:06:41 发布 · 65 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/tangpg/p/10685266.html

文章标签：

#python #数据库

本文详细介绍了使用Scrapy框架进行数据爬取的过程，包括定义爬虫项、提取数据及存储到MongoDB数据库的方法。通过实例展示了如何利用XPath解析网页内容，并将结果存储为字典格式以供后续处理。

scrapy-items

items定义字段名字

import scrapy


class HrItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    position = scrapy.Field()
    pub_date = scrapy.Field()

当怕爬取到数据时

            item = HrItem()
            item['title'] = data.xpath("./td[1]/a/text()").extract_first()
            item['position'] = data.xpath("./td[2]/text()").extract_first()
            item['pub_date'] = data.xpath("./td[5]/text()").extract_first()

pipelines储存进mongodb，需将数据转换成dict

from pymongo import MongoClient
client = MongoClient()
collection = client['SpiderAnything']['hr'] # 库名 表名


class SpideranythingPipeline(object):
    def process_item(self, item, spider):
        if isinstance(item, HrItem):  # 判断对象 选择管道
            print(item)
            collection.insert(dict(item))
            return item