智联招聘爬虫职位信息的爬取

lot_student

于 2021-04-26 18:05:31 发布

阅读量2.4k

点赞数 5

文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/weixin_41075201/article/details/116164776

版权

本文介绍了如何在Ubuntu 18.04环境下，利用PyCharm、Anaconda3和Python 3.8，结合Scrapy、Selenium库，实现带有随机User-Agent和IP代理的网页爬虫。通过Selenium模拟登录和点击JavaScript，以获取动态加载的数据。同时，展示了如何配置Scrapy中间件和设置文件，以及解析复杂网页结构的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、电脑系统：ubuntu 18.04.5 LTS ；开发工具：pycharm;编译环境：anaconda3,python_vesion:Python 3.8;第三方库文件：Scrapy,selenium

2、下面就是代码了，想说的话都在注释里了

第一步：编写middlewares.py文件:
from ScrapySpider.setting import USER_AGENT_LIST,PROXIY_LIST 
import base64
import random
from selenium import webdriver
from time
from scrapy.http import HtmlResponse

#开启Headers头文件，User-Agent代理池，随机选取User-Agent
class Random_UserAgent :
    def process_request(self,request,spider):
        User_Agent = random.choice(USER_AGENT_LIST)
        request.headers['User_Agent'] = User_Agent

#开启ip代理,从ip代理池中随机选取代理IP
class Random_Proxies() :
    def process_request(self,request,spider):
        proxy = random.choice(PROXIY_LIST)
        if 'user_password' in proxy :
            bs64 = base64.b16decode(proxy['user_password'])#因为代理IP有账号密码,所以要进行编码处理             
    	    request.headers['Proxy_Authorization'] ='Basic ' +b64_up.decode('utf-8')  
     	    request.meta['Proxy'] = proxy['ip_port']
      else:
          request.meat['Proxy'] = proxy['ip_port']#这里Proxy不能写成小写p,会报错
        
#根据爬取的网页不同，选用selenium,做模拟登录或模拟点击JS
#这里只为驱动url中的js,以获取JS生成的数据
class SeleniumMiddleware():
    def process_request(self,request,spider):
        url = request.url