获取boss直聘的岗位信息--2023年7月份

最新推荐文章于 2025-04-13 17:45:32 发布

教你打中单

最新推荐文章于 2025-04-13 17:45:32 发布

阅读量866

点赞数 17

文章标签： selenium python 数据分析

本文链接：https://blog.youkuaiyun.com/ymdaa555/article/details/131711730

版权

在本篇博客中，我将分享如何使用Selenium进行网页数据采集，并展示一个具体的代码示例。我们将通过Selenium访问一个招聘网站，抓取招聘信息，并将数据保存到CSV文件中。

环境配置

首先，我们需要确保Selenium和其他依赖库的安装。此示例中使用的是Selenium 3.141.0版本和urllib3 1.26.0版本。以下是代码完整示例：


from selenium import webdriver
#selenium版本是3.141.0配合urlib3的版本是1.26.0
import time
from selenium.webdriver.common.by import By
import random
import pandas as pd
def Chrome():
    """selenium制作请求"""
    chrome_driver = './chromedriver.exe'
    option = webdriver.ChromeOptions()  # 配置Chrome驱动
    # option.add_argument("--headless")  # 无界面启动
    option.add_experimental_option('useAutomationExtension', False)  # 禁用Chrome的自动化拓展程序
    option.add_experimental_option('excludeSwitches', ['enable-automation'])  # 确保浏览器不会因为启用自动化模式而出现不必要的错误或异常。
    option.add_argument("--disable-blink-features=AutomationControlled")  # 禁用由自动化测试或脚本控制的 Blink 功能。
    bs = webdriver.Chrome(chrome_options=option, executable_path=chrome_driver)

    # webdriver防屏蔽，不加这个就会出现滑动失败
    bs.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
           Object.defineProperty(navigator, 'webdriver', {
             get: () => false
           })
         """
    })
    return bs
hhh = 'https://www.zhipin.com/web/geek/job?query=java&city=101280100&'
def PQ(bs):
    """数据解析与请求链接查询"""
    qwer = []
    for i in range(1, 11):
        bs.get(url=hhh + "page=%d" % i)
        num = random.randint(10, 15)
        print("在第%d页停止时间"%i, num)
        time.sleep(num)
        bs.page_source
        print("当前正在采集的是第%d页数据" % i)
        print()
        if i == 1:
            for j in range(1, 31):
                name = bs.find_element(by=By.XPATH,
                                       value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[2]/ul/li[%d]/div[1]/a/div[1]/span[1]' % j)
                dz = bs.find_element(by=By.XPATH,
                                     value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[2]/ul/li[%d]/div[1]/a/div[1]/span[2]/span' % j)
                xz = bs.find_element(by=By.XPATH,
                                     value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[2]/ul/li[%d]/div[1]/a/div[2]/span[1]' % j)
                gs = bs.find_element(by=By.XPATH,
                                     value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[2]/ul/li[%d]/div[1]/div/div[2]/h3/a' % j)
                fl = bs.find_element(by=By.XPATH,
                                     value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[2]/ul/li[%d]/div[2]/div' % j)
                jy = bs.find_element(by=By.XPATH,
                                     value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[2]/ul/li[%d]/div[1]/a/div[2]/ul/li[1]' % j)
                time.sleep(1)
                print(name.text, dz.text, xz.text, gs.text, fl.text, jy.text)
                www=[name.text, dz.text, xz.text, gs.text, fl.text, jy.text]
                qwer.append(www)
        else:
            for j in range(1, 31):
                name = bs.find_element(by=By.XPATH,
                                       value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[1]/ul/li[%d]/div[1]/a/div[1]/span[1]' % j)
                dz = bs.find_element(by=By.XPATH,
                                     value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[1]/ul/li[%d]/div[1]/a/div[1]/span[2]/span' % j)
                xz = bs.find_element(by=By.XPATH,
                                     value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[1]/ul/li[%d]/div[1]/a/div[2]/span[1]' % j)
                gs = bs.find_element(by=By.XPATH,
                                     value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[1]/ul/li[%d]/div[1]/div/div[2]/h3/a' % j)
                fl = bs.find_element(by=By.XPATH,
                                     value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[1]/ul/li[%d]/div[2]/div' % j)
                jy = bs.find_element(by=By.XPATH,
                                     value='//*[@id="wrap"]/div[2]/div[2]/div/div[1]/div[1]/ul/li[%d]/div[1]/a/div[2]/ul/li[1]' % j)
                time.sleep(1)
                print(name.text, dz.text, xz.text, gs.text, fl.text, jy.text)
                www = [name.text, dz.text, xz.text, gs.text, fl.text, jy.text]
                qwer.append(www)
        time.sleep(2)
        return qwer
def down_load(qwer):
    """保存数据"""
    columns = ['a', 'b', 'c', 'd', 'e', 'f']
    df = pd.DataFrame(qwer, columns=columns)
    df.to_csv('Boss直聘.csv', index=False)
if __name__=="__main__":
    bs=Chrome()
    qwer=PQ(bs)
    down_load(qwer)
    bs.quit()

代码解析

浏览器初始化：
- 函数 Chrome() 初始化并配置Chrome浏览器，以避免被网站检测到是自动化脚本。
- 配置选项包括禁用自动化扩展、避免显示自动化模式警告等。
数据采集与解析：
- 函数 PQ(bs) 通过循环访问指定的招聘页面，抓取职位名称、地点、薪资、公司、领域和经验要求等信息。
- 采用随机等待时间来模拟人类行为，避免被反爬虫机制检测。
- 处理每一页的数据，捕捉可能的异常。
数据保存：
- 函数 down_load(data) 将采集到的数据保存到CSV文件中，便于后续分析和处理。