不得不说现在的招聘网站反爬做的相当出色,不过利用自动化处理模块selenium依然可以实现工作岗位信息的爬取,尽管爬取效率较低,不过相对人工手动数据依然非常高效。
首先来明确我们要爬取的信息。
- 岗位名称
- 岗位薪资
- 岗位地区
- 学历要求
- 公司名称
- 公司标签
当然如果想爬取更多信息也可以自行进行选择。
首先import模块
from selenium import webdriver
import time
import random
from lxml import etree
user agent设置不赘述,可以参考前面文章。
这里注意一下代理的设置,具体代理ip和端口自行上网查找即可,有很多免费试用。
proxies = [
'--proxy-server=http://218.104.255.4:16939',
'--proxy-server=http://113.236.141.251:25734',
'--proxy-server=http://60.182.187.83:44565',
'--proxy-server=http://182.38.126.56:19933',
'--proxy-server=http://182.34.148.247:15763',
]
proxy = random.c