最新Boss直聘爬虫系统(在跟~)

本文介绍了一种使用浏览器控制和爬虫技术抓取BOSS直聘上杭州市BI岗位信息的方法,包括获取岗位页面数量、遍历区域获取详情链接,并处理验证需求。作者还分享了如何通过企业微信聊天机器人实现自动暂停爬取并提示用户验证的操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最新Boss直聘爬虫系统(在跟~)

BOSS直聘爬虫经常会限制IP,我们采取控制浏览器的方法获取源码爬取
例子:以爬取 杭州市 “BI“岗位为例
需要源码的关注公众号: “麻不辣清汤”
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/16897ba8791d413caa3ea7a9e3872eef.png

功能1:获取对应城市的岗位页面数量

因为BOSS直聘限制了用户只能看到10页数据,所以一般需要分不同区域的来进行爬取,但是也有些区域没有该岗位,导致爬取失败;
首先查看杭州市的所有城市的区号;见博客:https://blog.youkuaiyun.com/weixin_52001949/article/details/138193474
在这里插入图片描述

  • 确定爬取的配置文件

在这里插入图片描述

  • 获取每个区域存在岗位页码的数量。方便后面遍历爬取
  • 可以看到有些地区是没有BI岗位的,最多的岗位区域是330110,余杭区

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/3761764852fd46eda62615580229e065.png在这里插入图片描述

功能2:获取所有岗位详情的链接,存在本地

根据上述获取到的每个地区存在的最多页面,遍历的时候使用这个值作为最终遍历数。

岗位详情链接=[]
page_start=1
page_end=2
for area in areaBusiness:
    page_start = 1
    # 获取页码值,如果没有匹配的行,则默认为None
    page_values = 对应页码表[对应页码表['城市'] == area]['页码'].values
    page_end = page_values[0] if len(page_values) > 0 else None
    if page_end is None:
        continue
    for i in range(page_start,int(page_end)+1):
        print(area, i)
        url = f'https://www.zhipin.com/web/geek/job?query={jobs[0]}&city={城市代码}&areaBusiness={code}&experience={experience}&degree={degree}'
        # 使用 Playwright 同步 API
        '获取源代码'
        boss.get(url)  
        WebDriverWait(boss, 10).until(EC.visibility_of_element_located((By.CLASS_NAME, "options-pages")))
        time.sleep(0.5)
        boss_text = boss.page_source
        soup = BeautifulSoup(boss_text, 'html.parser')
        # 找到类名为"options-pages"的<div>标签
        options_pages_div = soup.find('div', class_="options-pages")
        # 在这个<div>内部找到所有的<a>标签
        a_tags = options_pages_div.find_all('a') if options_pages_div else []
        # 从找到的<a>标签中提取文本,忽略空白和非数字内容
        numbers = [tag.text.strip() for tag in a_tags if tag.text.strip().isdigit()]
        # 获取最后一个数字,如果存在的话
        last_number = numbers[-1] if numbers else None
        job_card_left_elements = soup.find_all(class_='job-card-left')
        for element in job_card_left_elements:
            href = element['href']
            full_link = 'https://www.zhipin.com' + href
            岗位详情链接.append(full_link)
df=pd.DataFrame({
'Name':岗位详情链接})f
文件名='岗位详情链接_BI_杭州.xlsx' 
df.to_excel(f"{文件名}")

功能三:遇到需要验证,自动暂停爬取,提示需要手动验证

在这里插入图片描述

在这里插入图片描述

BOSS直聘会对任何频繁用户进行验证

我们通过控制企业微信的聊天机器人来提示用户需要验证,验证完成之后再进行爬取,基本上不到1000条数据会有提示。
具体链接到:https://blog.youkuaiyun.com/weixin_52001949/article/details/137915839?spm=1001.2014.3001.5502

for i in 岗位详情链接["Name"][s:e]:
    count=count+1
    print(f"开始爬取{count}")
    # 打开网页
    url =f'{i}'
    boss.get(url)  
    time.sleep(random.uniform(10,20))
    #遇到需要验证的话执行qywx_message提示函数。    if("点击进行验证" in boss.page_source or "您暂时无法继续访问" in boss.page_source):
        print("报错")
        count_end=count
        qywx_message()
        input()
        boss.get(url) 
        time.sleep(random.uniform(10,20))
        detail_code = boss.page_source
        '执行爬取'
        df = pd.concat([df, start_paqu(detail_code)], axis=0)
        df.to_excel(f"{文件名}_爬取到{s}-{e}.xlsx")
    else:
        detail_code = boss.page_source
        df = pd.concat([df, start_paqu(detail_code)], axis=0)
        df.to_excel(f"{文件名}_爬取到{s}-{e}.xlsx")          
### 使用Scrapy和Selenium实现从Boss抓取数据的技术细节 #### 创建Scrapy项目 启动一个新的Scrapy项目可以通过运行特定的命令完成。例如,要创建名为`newcrawler`的新项目,可以使用如下命令[^1]: ```bash scrapy startproject newcrawler ``` #### 动态加载数据处理 某些网站会利用JavaScript动态加载数据,这可能导致传统的HTML解析方法无法完全提取所需信息。针对此类情况,推荐采用Scrapy结合Selenium的方式解决。这种方式能够模拟真实的浏览器环境,进而捕获由JavaScript渲染的内容[^4]。 #### 安装依赖库 如果遇到Twisted等相关依赖安装失败的情况,可以从指定资源下载适合版本并手动安装[^3]。例如,在Windows环境下可能需要访问[Gohlke Python Libraries](https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted),找到对应的.whl文件后通过pip进行本地安装。 #### 配置Selenium中间件 为了让Scrapy支持Selenium功能,需配置好相应的中间件设置以及编写适配器逻辑。以下是基本示例代码片段展示如何集成两者: ```python from scrapy import signals from selenium import webdriver from scrapy.http import HtmlResponse class SeleniumMiddleware(object): @classmethod def from_crawler(cls, crawler): middleware = cls() crawler.signals.connect(middleware.spider_opened, signal=signals.spider_opened) crawler.signals.connect(middleware.spider_closed, signal=signals.spider_closed) return middleware def process_request(self, request, spider): self.driver.get(request.url) body = str.encode(self.driver.page_source) # Create the response. return HtmlResponse( self.driver.current_url, body=body, encoding='utf-8', request=request ) def spider_opened(self): options = webdriver.ChromeOptions() options.add_argument('--headless') self.driver = webdriver.Chrome(options=options) def spider_closed(self): self.driver.quit() ``` 上述代码定义了一个自定义Downloader Middleware类 `SeleniumMiddleware` ,它会在请求到达之前调用Selenium驱动程序打开目标URL,并返回经过渲染后的页面源码作为响应对象传递给后续处理器。 #### 实际案例分析 整个过程涵盖了从初始化Scrapy工程结构到最终部署上线的一系列操作步骤说明;不仅限于基础理论讲解还包括具体实践指导,帮助开发者构建出具备较强鲁棒性的网络爬虫系统用于采集像Boss这样的复杂交互型站点中的职业岗位详情等内容[^2]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值