前程无忧爬虫实战(通过输入关键字爬取任意职位并自动保存为.csv文本)

本文介绍了一种使用Python爬虫技术从前程无忧网站抓取职位信息的方法,包括构造URL、发送GET请求、利用XPath解析网页内容、获取最大页码并遍历所有页面,最终将数据保存为CSV文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

![0e644a1fa9dc00c3e7c752bdf4382aa2.jpg](https://upload-images.jianshu.io/upload_images/9136378-72ab92577ff68f7d.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

#这里只分析主要的思路和要注意的点。有什么不懂的可以评论提问,研究给出的代码理解。
##1.通过在前程无忧上面输入关键字搜索可以发现,前程无忧的数据不是ajax加载的,是普通的一个get请求,只需要构造url发送请求,编写解析的规则就可以了,这里推荐采用xpath编写解析的规则。解析这些非结构性的数据首先考虑xpath,xpath不行的话就用正则。获取最大爬取页码数据只需要通过xpath定位那个最大页数就可以了,然后把那个数字提取出来,在写个if判断。

2.代码的实现如下
 

#_author:'DJS'
#date:2018-11-19

import csv
import re

import requests
from lxml import etree
headers = {
    "cache-control": "no-cache",
    "postman-token": "72a56deb-825e-3ac3-dd61-4f77c4cbb4d8",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36",

}
def get_url(key1):
    try:
        i=0
        url = "https://search.51job.com/list/030800%252C040000%252C030200,000000,0000,00,9,99,{},2,1.html"
        response = re
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值