前程无忧爬虫实战（通过输入关键字爬取任意职位并自动保存为.csv文本）

最新推荐文章于 2024-01-12 23:25:49 发布

原创

最新推荐文章于 2024-01-12 23:25:49 发布 · 4.4k 阅读

15 ·

CC 4.0 BY-SA版权

本文介绍了一种使用Python爬虫技术从前程无忧网站抓取职位信息的方法，包括构造URL、发送GET请求、利用XPath解析网页内容、获取最大页码并遍历所有页面，最终将数据保存为CSV文件。

![0e644a1fa9dc00c3e7c752bdf4382aa2.jpg](https://upload-images.jianshu.io/upload_images/9136378-72ab92577ff68f7d.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

#这里只分析主要的思路和要注意的点。有什么不懂的可以评论提问，研究给出的代码理解。
##1.通过在前程无忧上面输入关键字搜索可以发现，前程无忧的数据不是ajax加载的，是普通的一个get请求，只需要构造url发送请求，编写解析的规则就可以了，这里推荐采用xpath编写解析的规则。解析这些非结构性的数据首先考虑xpath,xpath不行的话就用正则。获取最大爬取页码数据只需要通过xpath定位那个最大页数就可以了，然后把那个数字提取出来，在写个if判断。

2.代码的实现如下

#_author:'DJS'
#date:2018-11-19

import csv
import re

import requests
from lxml import etree
headers = {
    "cache-control": "no-cache",
    "postman-token": "72a56deb-825e-3ac3-dd61-4f77c4cbb4d8",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36",

}
def get_url(key1):
    try:
        i=0
        url = "https://search.51job.com/list/030800%252C040000%252C030200,000000,0000,00,9,99,{},2,1.html"
        response = re

最低0.47元/天解锁文章

9 条评论

꯭自꯭闭꯭ 2022.05.23
请输入要爬取的职位填啥啊？

qq_42380109 2022.01.10
LZ直接复制你的，为啥爬不出来呀

qq_38038476 2019.07.01
如果能加上工作经验和选择地区就好了

qq_38038476 2019.07.01
这个好

伺悖霂 2019.06.03
for list in lists: item = {} item["职位"] = "".join(list.xpath("./p/span/a/text()")).replace('\r\n', '').replace(' ', '') item["公司名称"] = "".join(list.xpath("./span[@class='t2']/a/text()")).replace('\r\n', '').replace(' ', '') item["工作地点"] = "".join(list.xpath("./span[@class='t3']/text()")).replace('\r\n', '').replace(' ', '') item["薪资"] = "".join(list.xpath("./span[@class='t4']/text()")).replace('\r\n', '').replace(' ', '') item["发布时间"] = "".join(list.xpath("./span[@class='t5']/text()")).replace('\r\n', '').replace(' ', '') yield item 等号后面的是什么意思，没理解
- djs123DJS回复伺悖霂 2019.06.04
  [reply]qq_41300251[/reply] 你是学什么专业的？