Python3爬取前程无忧数据分析工作并存储到MySQL

最新推荐文章于 2024-04-18 23:29:33 发布

原创

最新推荐文章于 2024-04-18 23:29:33 发布 · 置顶 · 6.7k 阅读

132 ·

CC 4.0 BY-SA版权

文章标签：

#Python #MySQL #爬虫 #前程无忧 #招聘

本文介绍了使用Python爬取前程无忧网站上的数据分析职位信息，详细讲解了从导入包、获取HTML、解析内容、数据清洗到存储到MySQL数据库的全过程，并实现了分页爬取。最后在Navicat中验证了数据成功入库。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、导入包

import requests   #取数
from lxml import etree   #用xpath解析
import pymysql   #连接数据库
import chardet   #自动获取编码

2、获取单页html

def get_one_page(url):
    headers = {
   
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'}
    response = requests.get(url, headers=headers)  #习惯先把头部信息加上
    response.encoding = chardet.detect(response.content)['encoding'] #用chardet.detect方法自动获取网页的编码，也可以自己手动在网页查
    return response.text

3、解析html

def parse_one_page(html):
    #对获取内容初始化，再用parse函数etree.HTML解析
    result = etree.HTML(html)
    item = {
   
   } #建立一个字典储存所有职位信息
    item['t1'] = result.xpath('//div[@class="el"]/p/span/a/text()') #职位名称
    item['t2'] = result.xpath('//div[@class="el"]/span[@class="t2"]/a/text()') #公司名称
    item['t3'] = result.xpath('//div[@class="el"]/span[@class="t3"]/text()') #工作地点
    t4 = result.xpath('//div[@class="el"]/span[@class="t4"]')   #text无法获取空值(薪资数据可能为空),所以要用string方法获取
    item['t4'] = []
    for i in t4:
        item['t4'].append(i.xpath('string(.)'))  #遍历出来再用xpath解析，string(.)中间的点表示在当前目录
    item['t5'] = result.xpath('//div[@class="el"]/span[@class="t5"]/text()') #发布时间
    it