Scrapy+Splash爬取动态加载js的网页数据

HTML渲染分为两类。动态加载和静态加载。静态加载就是整个HTML文档都是有服务器渲染之后,发送给客户端进行展示。但是随着技术拓展,越来越多的网页上的有效数据是通过js动态加载出来的,如果我们还是用传统的方式爬取,那么结果可想而知。今天介绍Scrapy+Splash模拟浏览器行为,动态加载js之后,获取有效数据。

1、安装Scrapy

C:\Users\Administrator>pip install scrapy

#成功标志
Successfully installed Scrapy-1.5.1

2、创建Scrapy项目

C:\Users\Administrator>scrapy startproject ZhipinSpider

#成功标志,在Administrator文件夹下生成一个ZhipinSpider文件夹,结构如下:
ZhipinSpider
    scrapy.cfg
    ZhipinSpider
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders
            __init__.py
            job_position.py
       

 

3、编写类

3.1、job_position.py

# 导入访问MySQL的模块
import mysql.connector


class ZhipinspiderPipeline(object):
    # 定义构造器,初始化要写入的文件
    def __init__(self):
        self.conn = mysql.connector.connect(user='root',
                                            password='root',
                                            host='192.168.36.58', port='3306',
                                            database='directrecruit',
                                            use_unicode=True)
        self.cur = self.conn.cursor()

    # 重写close_spider回调方法,用于关闭数据库资源
    def close_spider(self, spider):
        print('----------关闭数据库资源-----------')
        # 关闭游标
        self.cur.close()
        # 关闭连接
        self.conn.close()

    def process_item(self, item, spider):
        self.cur.execute("INSERT INTO job_inf VALUES(null, %s, %s, %s, %s, %s, %s, %s, %s, %s)",
                         (item['title'], item['salary'], item['company'], item['url'], item['work_addr'], item['industry'], item.get('company_size'), item['recruiter'], item['publish_date']))
        self.conn.commit()

3.2、items.py

import scrapy


class ZhipinspiderItem(scrapy.Item):
    # 工作名称
    title = scrapy.Field()
    # 工资
    salary = scrapy.Field()
    # 招聘公司
    company = scrapy.Field()
    # 工作详细链接
    url = scrap
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值