智联招聘 爬虫职位信息的爬取

本文介绍了如何在Ubuntu 18.04环境下,利用PyCharm、Anaconda3和Python 3.8,结合Scrapy、Selenium库,实现带有随机User-Agent和IP代理的网页爬虫。通过Selenium模拟登录和点击JavaScript,以获取动态加载的数据。同时,展示了如何配置Scrapy中间件和设置文件,以及解析复杂网页结构的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、电脑系统:ubuntu 18.04.5 LTS ;开发工具:pycharm;编译环境:anaconda3,python_vesion:Python 3.8;第三方库文件:Scrapy,selenium

2、下面就是代码了,想说的话都在注释里了

第一步:编写middlewares.py文件:
from ScrapySpider.setting import USER_AGENT_LIST,PROXIY_LIST 
import base64
import random
from selenium import webdriver
from time
from scrapy.http import HtmlResponse

#开启Headers头文件,User-Agent代理池,随机选取User-Agent
class Random_UserAgent :
    def process_request(self,request,spider):
        User_Agent = random.choice(USER_AGENT_LIST)
        request.headers['User_Agent'] = User_Agent

#开启ip代理,从ip代理池中随机选取代理IP
class Random_Proxies() :
    def process_request(self,request,spider):
        proxy = random.choice(PROXIY_LIST)
        if 'user_password' in proxy :
            bs64 = base64.b16decode(proxy['user_password'])#因为代理IP有账号密码,所以要进行编码处理             
    	    request.headers['Proxy_Authorization'] ='Basic ' +b64_up.decode('utf-8')  
     	    request.meta['Proxy'] = proxy['ip_port']
      else:
          request.meat['Proxy'] = proxy['ip_port']#这里Proxy不能写成小写p,会报错
        
#根据爬取的网页不同,选用selenium,做模拟登录或模拟点击JS
#这里只为驱动url中的js,以获取JS生成的数据
class SeleniumMiddleware():
    def process_request(self,request,spider):
        url = request.url
     
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值