scrapy 爬取前程无忧

最新推荐文章于 2021-01-25 04:27:10 发布

转载最新推荐文章于 2021-01-25 04:27:10 发布 · 208 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/sxqfuture/p/10256462.html

文章标签：

#爬虫 #python #php

本文介绍了一种使用Scrapy框架进行网页爬取的方法，具体案例为从51job网站抓取PHP相关职位信息，包括职位名称、公司名称、工作地点、薪资及发布日期等关键字段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spider

# -*- coding: utf-8 -*-
import scrapy
from Jobs.items import JobsItem

class Job51spiderSpider(scrapy.Spider):
    name = 'Job51Spider'
    allowed_domains = ['www.51job.com', 'search.51job.com']
    offset = 1
    # 起始url
    url = "https://search.51job.com/list/090200,000000,0000,00,9,99,php,2,"
    start_urls = [url + str(offset) + ".html"]
    def parse(self, response):
        print(response.url)
        for each in response.css('#resultList .el:not(.title)'):
            # 初始化模型对象
            item = JobsItem()
            # 职位名
            item['zwname'] = each.css('.t1 a').xpath('./@title').extract_first()
            # 公司名字
            item['gsname'] = each.css('.t2 a').xpath('./@title').extract_first()
            # 工作地点
            item['gzdd'] = each.css('.t3::text').extract_first()
            # 工资
            item['gz'] = each.css('.t4::text').extract_first()
            # 发布时间
            item['fbtime'] = each.css('.t5::text').extract_first()
            yield item

        zong = response.xpath('//div[@class="dw_page"]/div/div/div/span/text()').extract_first().split('页')[0].strip('共')
        if self.offset < int(zong):
            self.offset += 1

        # import ipdb; ipdb.set_trace()
        ss = self.url + str(self.offset) + ".html"
        yield scrapy.Request(url=ss, callback=self.parse)

items

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class JobsItem(scrapy.Item):
    # 职位名
    zwname = scrapy.Field()
    # 公司名字
    gsname = scrapy.Field()
    # 工作地点
    gzdd = scrapy.Field()
    # 工资
    gz = scrapy.Field()
    # 发布时间
    fbtime = scrapy.Field()