爬取51job职位信息

最新推荐文章于 2024-01-12 23:25:49 发布

原创最新推荐文章于 2024-01-12 23:25:49 发布 · 1.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#selenium #51job

python 同时被 2 个专栏收录

39 篇文章

订阅专栏

爬虫

11 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

今天在爬职位信息的时候，先用的requests模块，后来发现，获取的数据全部是乱码。果断换成selenium+Chrome,成功获取数据，保存MongoDB

在前期校验获取成果时，建议用selenium+Chrome，后期测试通过，换成无界面的PhantomJS

代码如下：

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as pq
# from config import *
import pymongo

browser = webdriver.Chrome('/home/worker/Desktop/driver/chromedriver')
wait = WebDriverWait(browser, 10)
browser.set_window_size(1400, 900)
# 连接数据库
client = pymongo.MongoClient('127.0.0.1', 27017)
# 定义数据库名称
db = client.Job
# 定义表名
coll = db.job
for i in range(1,101):

browser.get('https://search.51job.com/list/020000,000000,0000,00,9,99,Python,2,{}.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=4&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='.format(i))
wait.until(
EC.presence_of_element_located((By.CSS_SELECTOR, '#resultList > div'))
)
html = browser.page_source
# print(html)
doc = pq(html)

#siblings,在兄弟元素中找('.el')的元素
items = doc('#resultList .title').siblings('.el').items()

#当获取数据时，有的字段有数据有的没有，把获取数据之前的页面保存，比对
# with open('./html.html','w') as f:
# f.write(html)
for item in items:
# for row in rows:
Job={}

# Job['job_name']=item.find('a').eq(0).text(),
# eq(0),想得到第一个标签内的内容
Job['job_name']=item.find('.t1').eq(0).text()
Job['com_name']=item.find('.t2').text()
Job['addr']=item.find('.t3').text()
try:
Job['job_money']=item.find('.t4').text()
except:
Job['job_money']=None
Job['job_time']=item.find('.t5').text()
# time.sleep(0.1)
# print(Job['job_name'])
# print(Job['com_name'])
coll.insert(Job)