【2022】教你利用python爬取某实习网站信息并进行可视化输出

最新推荐文章于 2023-10-27 09:30:00 发布

原创

最新推荐文章于 2023-10-27 09:30:00 发布 · 1.2k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #后端

分别是爬取代码和可视化代码：

# 导入requests模块
import requests

# 从bs4中导入BeautifulSoup模块
from bs4 import BeautifulSoup

# 导入time模块
import time

# 将User-Agent以字典键对形式赋值给headers
headers = {
   
   
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"}


# 定义一个新函数getPositionInfo，包含参数detail_url
def getPositionInfo(detail_url):
    # 将detail_url和headers参数，添加进requests.get()中，给赋值给res
    res = requests.get(detail_url, headers=headers)

    # 使用.text属性获取网页内容，赋值给html
    html = res.text

    # 用BeautifulSoup()传入变量html和解析器lxml，赋值给soup
    soup = BeautifulSoup(html, "lxml")

    # 使用find()函数获取class="new_job_name"的节点
    # 使用attrs属性提取出title的属性值,赋值给变量job
    job = soup.find(class_="new_job_name").text.strip()

    # 使用find()函数获取class="job_academic"的节点
    # 使用.text属性提取出标签内容，赋值给academic
    academic = soup.find(class_="job_academic").text

    # 使用find()函数获取class="job_position"的节点
    # 使用.text属性提取出标签内容，赋值给position
    position = soup.find(class_="job_position").text

    # 使用find()函数获取class="job_money cutom_font"的节点
    # 使用.text属性提取出标签内容，赋值给salary
    salary = soup.find(class_