Python入门爬虫1 腾讯招聘网站岗位爬取

本文是作者的Python爬虫学习系列的第一篇,介绍如何爬取腾讯招聘网站的岗位信息。文章详细讲解了使用requests库获取页面数据,利用lxml解析HTML,提取岗位名称和链接,并通过json存储爬取结果的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作为一个热爱学习的社会主义接班人,接下来一段时间我将持续更新python爬虫这一块的内容
在博客里将会持续并认真的记录我的学习过程
首先介绍一下我的学习环境: win10+Anaconda+Pycharm,默认会一些python的基础知识
希望我的博客能够给你带来帮助 - ̗̀(๑ᵔ⌔ᵔ๑)
下面进入正题:

爬取网站链接:https://hr.tencent.com/social.php

过程主要分为三部分:
1.获取整体页面数据
2.抽取想要的数据
3.数据存储

在开始之前,你要学会安装第三方库,pycharm的同学可以在终端(Terminal)里使用pip install + 库名进行安装

获取页面整体数据
1.初始化函数,使用请求头进行访问
大括号内输入你自己浏览器的请求头

获取请求头的方法:
打开一个网页,按F12(或者Fn+F12),刷新一下,选择network,在左侧随便选择一个(一般里面都可以找到,没有的话你就多换两个试试),右侧可以找到user-agent,这个就是你电脑浏览器的请求头啦~~

在这里插入图片描述
如下是我定义的请求头

def __init__(self):
	self.headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36" }

2.选

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值