分别是爬取代码和可视化代码:
# 导入requests模块
import requests
# 从bs4中导入BeautifulSoup模块
from bs4 import BeautifulSoup
# 导入time模块
import time
# 将User-Agent以字典键对形式赋值给headers
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}
# 定义一个新函数getPositionInfo,包含参数detail_url
def getPositionInfo(detail_url):
# 将detail_url和headers参数,添加进requests.get()中,给赋值给res
res = requests.get(detail_url, headers=headers)
# 使用.text属性获取网页内容,赋值给html
html = res.text
# 用BeautifulSoup()传入变量html和解析器lxml,赋值给soup
soup = BeautifulSoup(html, "lxml")
# 使用find()函数获取class="new_job_name"的节点
# 使用attrs属性提取出title的属性值,赋值给变量job
job = soup.find(class_="new_job_name").text.strip()
# 使用find()函数获取class="job_academic"的节点
# 使用.text属性提取出标签内容,赋值给academic
academic = soup.find(class_="job_academic").text
# 使用find()函数获取class="job_position"的节点
# 使用.text属性提取出标签内容,赋值给position
position = soup.find(class_="job_position").text
# 使用find()函数获取class="job_money cutom_font"的节点
# 使用.text属性提取出标签内容,赋值给salary
salary = soup.find(class_