爬虫爬取51job python职位相关信息

本文介绍了一个简单的Python爬虫程序,用于抓取51job网站上Python岗位的详细信息,包括职位名称、公司、工作年限及薪水等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分析如下:

1.(深圳)搜索页:
    https://search.51job.com/list/040000,000000,0000,00,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

2.输入python岗位搜索后:
    https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

3.每页只改变2,后面的数字

代码如下:

from urllib.request import *
import re
from lxml import etree


class Job(object):
    # 1.发送首页请求
    def __init__(self):
        # self.position = input("请输入你想要查询的岗位:")
        self.start_page = int(input("请输入你要爬的起始页:"))
        self.end_page = int(input("请输入你要爬的结束页:"))
        # 请求报头
        self.headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

    def get_page_html(self):
        """爬虫开始,获取每页的网页源码"""
        print('开始爬取数据')
        for page in range(self.start_page, self.end_page + 1):
            url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,' + 'python' + ',2,' + str(page) + '.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
            # print(url)

            # 防止请求网页页数过大而报错
            try:
                print("正在爬取第%d页..."%page)
                request = Request(url, headers=self.headers)
                response = urlopen(request)

                # 得到网页源码
                html = response.read().decode("gbk")
                self.get_positon_html(html,page)
            except:
                pass

    def get_positon_html(self, html,page):
        """获取每个职位的网页源码"""
        selector = etree.HTML(html)

        # 获取个职位的单独的html
        postion_list = selector.xpath('//p[@class="t1 "][1]//a/@href')
        print('正在保存第%d页的数据...' % page)

        for postion_url in postion_list:
            resquest = Request(postion_url, headers=self.headers)
            response = urlopen(resquest)

            html1 = response.read().decode('gbk')
            self.get_position_info(html1)

    def get_position_info(self, html):

        # 把每个职位的相关信息放入一个字典中
        item = {}

        h1 = re.findall(r'<h1 title=.*?>', html)[0]
        item['职位'] = re.sub('<h1 title="|">', '', h1)

        h2 = re.findall(r'target="_blank" title=.*? ', html)[0]
        item["公司"] = re.sub('target="_blank" title="|" ', '', h2)

        h3 = re.findall(r'<p class="msg ltype" title=.*?>', html)[0]
        item['工作年限'] = re.sub('<p class="msg ltype" title="|&nbsp;|">', '', h3)

        h4 = re.findall(r'<strong>.*?</strong>', html)[1]
        item['薪水'] = re.sub('<strong>|</strong>', '', h4)

        item['分割线'] = '-' *30


        for i in item:
            with open('51job.txt', 'a') as f:
                f.write(item[i]+'\n')


def main():
    job = Job()
    job.get_page_html()


if __name__ == '__main__':
    main()

爬取结果如下:

 

 

 

如果你和我有共同爱好,我们可以加个好友一起交流!

### 使用Scrapy框架爬取51job网站数据 #### 创建Scrapy项目 为了启动一个新的Scrapy项目,可以使用`scrapy startproject`命令来初始化环境。这会创建一个包含必要配置文件和目录结构的基础项目[^2]。 ```bash scrapy startproject JobSpider ``` #### 构建爬虫脚本 接着,在项目的spiders目录内构建特定于目标站点的爬虫类。对于51job而言,可以通过指定起始URL以及解析函数来自定义行为: ```python import scrapy from ..items import JobItem # 导入自定义item class JobSpider(scrapy.Spider): name = "job" allowed_domains = ["51job.com"] base_url = 'https://search.51job.com/jobsearch/search_result.php' def __init__(self, *args, **kwargs): super(JobSpider, self).__init__(*args, **kwargs) def start_requests(self): keyword = getattr(self, 'keyword', None) if not keyword: raise ValueError("No search term provided") for page_num in range(1, 185): # 可调整页码范围 params = { 'keyword': keyword, 'curr_page': str(page_num), 'lang': 'c', 'stype': '2', 'postchannel': '0000', 'workyear': '99', 'cotype': '99', 'degreefrom': '99', 'jobterm': '99', 'companysize': '99', 'ord_field': '0', 'dibiaoid': '0', 'line': '', 'welfare': '' } yield scrapy.FormRequest( url=self.base_url, formdata=params, callback=self.parse_listings, encoding='gbk' ) def parse_listings(self, response): urls = response.xpath('//div[@class="el"]/p/span/a/@href').extract() for url in urls[:]: yield scrapy.Request(url=url, callback=self.parse_job_details) def parse_job_details(self, response): item = JobItem() item['title'] = response.css('.cn h1::text').get().strip() or "" item['company_name'] = response.css('.cname a::text').get().strip() or "" item['salary'] = response.css('.cn strong::text').get().strip() or "" yield item ``` 上述代码展示了如何设置初始请求参数,并迭代多页面获取列表项链接;随后针对每一个职位详情页发起新的HTTP GET请求以进一步抽取所需字段信息[^3]。 #### 存储抓取的数据 默认情况下,Scrapy会在控制台输出所收集的信息。如果希望将这些记录持久化保存,则可通过管道(Pipeline)机制处理每条Item实例,比如将其写入JSON文件、CSV表单或是关系型数据库中[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值