用 Python 爬取国外招聘平台（Indeed/LinkedIn）并分析岗位趋势

最新推荐文章于 2025-11-12 09:48:26 发布

原创

最新推荐文章于 2025-11-12 09:48:26 发布 · 506 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

一、项目背景

随着互联网招聘的发展，Indeed和LinkedIn成为全球最大的招聘信息平台。通过爬取这些平台的岗位数据，结合文本分析技术，可以挖掘招聘需求趋势、热门技能以及行业动态，为求职者和企业提供有价值的参考。

二、爬取平台简介及难点

Indeed
- 页面结构相对简单，且部分信息可以直接通过HTML解析获取。
- 有IP限流和反爬策略。
LinkedIn
- 动态加载内容多，需模拟登录，且反爬严格。
- 推荐用官方API或自动化工具如Selenium（需遵守平台协议）。

本文重点示范Indeed爬取思路，LinkedIn建议合法使用官方API或手工采集。

三、技术栈

爬虫：requests + BeautifulSoup（Indeed）
动态加载：Selenium（LinkedIn示范）
数据处理：pandas
文本分析：jieba / nltk / scikit-learn
可视化：matplotlib / seaborn

四、爬取Indeed岗位数据

4.1 分析目标URL

Indeed的搜索URL格式：

https://www.indeed.com/jobs?q=python&l=New+York&start=0

参数解释：

q：职位关键词
l：城市
start：分页起点，步长通常为10或15

4.2 发送请求获取页面

import requests
from bs4 import BeautifulSoup
import time

headers = {
   
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0 Safari/537.36'
}

def fetch_indeed_jobs(keyword, location, pages=3):
    jobs = []
    for page in range(pages):
        url = f'https://www.indeed.com/jobs?q={
     
     keyword}&l={
     
     location}&start={
     
     page*10}'
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')
        
        for div in soup.find_all('div', attrs={
   
   'class': 'jobsearch-SerpJobCard'}):
            title

最低0.47元/天解锁文章