互联网职位爬虫实现细节

互联网职位爬虫实现细节

本文是对互联网职位爬虫程序的流程进行基本的描述,概述了爬虫程序的运行流程,相关表结构,网页解析规则,反爬策略的应对措施等。

具体实现参考源码:https://github.com/laughoutloud61/jobSpider

开发环境

开发使用的框架:scrapy, scrapy-redis
开发使用的数据库(服务器):Elasticsearch, redis

实现目标

开发分布式爬虫系统,爬取目标网页(拉勾网)详细页面信息的抓取。并将抓取的信息进行清洗,存入Elasticsearch服务器中。

表结构的定义

分析详细页面,确定要爬取的信息
在这里插入图片描述根据页面信息分析,定义如下爬虫数据结构

class JobSpiderItem(Item):
    id = Field(
        input_processor=MapCompose(get_id)
    )
    job_name = Field()
    url = Field()
    salary = Field(
        input_processor=MapCompose(extract_digital),
        output_processor=MapCompose(get_value)
    )
    city = Field()
    work_experience = Field(
        input_processor=MapCompose(extract_digital),
        output_processor=MapCompose(get_value)
    )
    education = Field(
        input_processor=MapCompose(education_process)
    )
    skills = Field(
        input_processor=MapCompose(extract_word),
        output_processor=MapCompose(get_value)
    )
    tags = Field(
        output_processor=MapCompose(get_value)
    )
    platform = Field()
    release_time = Field(
        input_processor=MapCompose(extract_time)
    )
    company_name = Field(
        inpu
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值