拉勾网爬取之二：利用selenium和lxml爬取

最新推荐文章于 2022-11-11 21:24:30 发布

原创

最新推荐文章于 2022-11-11 21:24:30 发布 · 494 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍了如何利用selenium模拟浏览器行为，避开cookie限制，从拉勾网抓取信息。通过打开首页、关闭弹窗、输入搜索关键词、遍历并提取每个职位详情页信息，实现自动化爬虫。代码详细展示了这一过程。

由于拉勾网的cookie信息很快会过期，所以在这里我们可以利用selenium来模拟浏览器的行为，避开cookie信息对我们的限制。在上一篇，我们提取拉勾网的信息要自己手动地设置一些地址，这就很不方便了。

在这里我们用selenium打开拉勾网的首页，关闭弹窗，在输入框输入信息并点击搜索，像人一样点开每一个职位的详情页面提取完信息后关闭页面并打开下一个信息，完成一个页面后点击下一页并判断是否在最后一页，提取完信息后退出。完整代码如下

from selenium import webdriver
from selenium.webdriver.support.ui import Select
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from lxml import etree
import time
import re


class LagouSpider(object):
    def __init__(self):
        self.driver = webdriver.Chrome()
        self.positions = []

    def run(self):
        self.parse_main_page()
        while True:
            self.parse_list_page()
            # 获取下一页点击按钮
            next_page = self.driver.find_element_by_xpath("//div[@class='pager_container']/span[last()]")
            # 判断是否到达最后一页

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bingtang21

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

selenium+lxml爬取(查询)拉勾网职位信息

阿优乐扬的博客

08-17

772

from selenium import webdriver import time from lxml import etree driver = webdriver.Chrome() url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' driver.get(u...

selenium爬取拉勾网

qq_44404262的博客

04-19

1389

文章目录1 安装selenium和webdriver1.1 自动控制浏览器2 正式爬取拉勾网2.1控制浏览器，进入拉勾网 1 安装selenium和webdriver 在Python路径下安装selenium，安装成功后还需安装相应浏览器的webdriver，不然无法控制浏览器，比如谷歌浏览器要下载chromedriver 进入官网 http://npm.taobao.org/mirrors...

参与评论您还未登录，请先登录后发表或查看评论

Python 爬虫（Selenium+lxml）

pylduck的专栏

12-05

1932

爬虫东方财富网界面和network信息先贴上。我们需要实现获得该页面的资产负债数据，并能指定code切换企业。这里还有Python js执行，我们先安装一个selenium。selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。安装命令：conda install selenium 然后分析检查这张页...

利用selenium对拉勾网的爬虫并将数据导入mysql数据库

05-11

利用selenium+pyquery对拉勾网进行爬取相应招聘信息，并且将爬取到的信息导入数据库mysql中，

python从入门到放弃篇30（selenium库，lxml库,urllib.request库)联合实现简单页面深入爬取

Forerunner and Successor 先駆者と後継者

07-25

535

这几天一直在想，如果浏览器能点进一个链接，然后，点击当前的页面的链接，又可以进入下一个页面，那么爬虫能不能实现呢？我个人偏见，这是一个有意思的发现，我把这种爬取方式称为深入爬取，简单来说，就是我们写的爬虫，就像是浏览器去浏览网页一样，爬虫看见的东西，都可以爬下来，可以模拟人的行为，点击链接进去，获取链接的页面，然后，链接里面的链接页面内容也可以通过这种方式获取。这就像是生物学的细胞分裂，一个页面变出两个页面，两个页面变出四个，往复如此，直到最后一个页面的信息被提取完毕。这样，我们的爬虫就不再是单页面网页爬

网络爬虫python+selenium+lxml

Django2.0.7 常见问题记录

09-26

639

目录第一章.环境安装 1.安装python+selenium 2.安装浏览器驱动第一章.环境安装平台环境：windows python版本：3.7 1.安装python+selenium 在官网下载最新的python3.7 版本，Path中设置环境变量路径。本机电脑Python安装路径和Python Scripts文件路径： C:\Users\Administrator\A...

拉勾网数据爬取实战：用Python实现高效爬虫

利用Python编写的网络爬虫不仅能够快速抓取网页数据，还能够通过简单配置实现数据的解析、存储和进一步处理。知识点三：拉勾网数据信息抓取拉勾网是中国领先的专业互联网人才招聘平台，提供企业与求职者之间的...

python爬虫之爬取拉勾网

m0_59874815的博客

11-22

7680

这次要爬取拉勾网，拉勾网的反爬做的还是很不错的啊，因为目标网站是Ajax交互的我一开始是直接分析json接口来爬取的，但是真的很麻烦，请求头一旦出点问题就给识别出来了后续我就改了一下方法用selenium来模拟浏览器去获取招聘求职信息-招聘网站-人才网-拉勾招聘 (lagou.com)https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=先把前面代码写好思路嘛大概就是获取主页的源...

爬虫笔记——拉勾网职位信息爬取（selenium方法）

wang_zuel的博客

07-18

2214

拉勾网爬虫笔记——selenium 拉勾的爬虫

selenium结合lxml爬取豆瓣电影相关信息

全杰的博客

09-04

1091

环境说明重要代码解释完整代码环境说明python3.5 centos7.2重要代码解释使用selenium加载网页：driver=webdriver.PhantomJS() driver.get("https://movie.douban.com/") 使用selenium和web进行互动将网页加在完全：end = True while (end): try: end

Python网络爬虫（Xpath解析, lxml库, selenium）

weixin_33750452的博客

11-10

354

安装： Windows ：安装selenium python -m pip install selenium Anaconda Prompt下执行 : conda install selenium Linux/Mac OS: sudo pip3 install selenium Ubuntu ：安装S...

python+selenium+lxml爬取正方教务系统全部成绩信息并保存在excle

weixin_42052331的博客

05-27

956

写在前面最近找工作写简历，有些公司需要电子版的成绩单，但是正方教务系统好像没有下载电子版成绩单的操作，所以我想能不能自己把成绩爬取并保存下来。准备工作 python2.7 selenium模块 lxml模块可被selenium控制的谷歌浏览器爬取前要自己先手动登录教务系统，让浏览器保存你的cookie，selenium模拟时就不用登录了，如果要求模拟登录，大家可以自学如何破解验证码。 ...

使用selenium等待网页加载完成，lxml解析网页，利用urllib爬取图片

CY_TEC的博客

04-28

4971

本来想爬六维空间（http://bt.neu6.edu.cn/）的搞笑图片来着。。。不知道为啥这两天上不去了。。。于是就拿品知人大试一下python的这两个库。用到的lxml函数可以参考：http://lxml.de/api/lxml.html.HtmlElement-class.html 主要的思路就是利用urllib获取网址内容，利用lxml解析特定规则的url。要爬取的

爬取拉勾网之一：利用requests和lxml库爬取

bingtang21的博客

09-16

328

首先要说明的是该代码并不能完美运行（可运行代码见下篇），因为请求拉勾网的cookie信息中加入了时间元素，cookie信息很快就会过期，在爬去几条信息后就不能再提取信息了，会报错：IndexError: list index out of range，就是因为请求网站后已经获取不到信息了而导致列表越界。完整代码如下 import requests from lxml import e...

【python爬虫笔记】 lxml requests selenium模块

m0_51933492的博客

11-11

1191

非常适合作为 Python 爬虫入门阶段第一选择，其简单的接口与代码封装，能大幅度降低网络请求代码编写难度，让你专注与目标数据的提取，更有基于高级请求的封装作为提高部分，该库完全可以贯穿你的整个爬虫工程师生涯。，如果你想向同一主机发送多个请求，使用会话对象可以将底层的 TCP 连接进行重用，从而带来显著的性能提升。模块目前在 Python 爬虫领域的出场率极高，很多简单的接口开发，也会基于它进行实现，通过会话对象的属性设置的参数，能被保持，而通过会话对象方法传递的参数，不能被保持。

网络爬虫之Selenium模块和Xpath表达式+Lxml解析库的使用

weixin_34259559的博客

01-04

439

实际生产环境下，我们一般使用lxml的xpath来解析出我们想要的数据，本篇博客将重点整理Selenium和Xpath表达式，关于CSS选择器，将另外再整理一篇！一.介绍： selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击...

使用selenium+BeautifulSoup4爬取拉勾网信息

huotong

06-28

911

使用selenium爬取拉勾网信息拉钩网的反爬技术做的很好，我尝试了网上的各种解决方案，都不怎么管用，如果直接使用scrapy框架爬取url信息的话，就会因为访问过于频繁而被限制，跳出以下页面：没办法了，只好祭出终极武器，使用selenium完全模仿浏览器的行为。 tips：这里是要先按照chromedriver的，使用bing搜索，可以立马搜索到结果，下载chromedriver.exe...

实战-selenium完美实现拉勾信息爬取-2

Pylemon Blog

08-02

544

获取北京python工作岗位实现了mongodb数据库和csv文件存在的问题：偶尔文件执行报错--Stale Element Reference Exception好像是JavaScript把网页给刷新了，那么操作的时候就会碰到Stale Element Reference Exception。所以这个异常并不是每次都会产生，也不是你想复现就能复现。小白：希望大家可以回复解决办法和优化...

selenium +lxml爬取拉钩网公司详情页

weixin_30616969的博客

02-17

297

#encoding: utf-8 import webbrowser import requests from selenium import webdriver from selenium.webdriver.support.ui import Select,WebDriverWait from selenium.webdriver.common.by import By f...