python之requests爬虫Boss数据
需要用到的库:reqeusts、lxml
没有的可以用直接下载
pip install requests
pip install lxm
这里以python岗位,地点北京为例
爬取的数据就是岗位名称、薪资、地点
首先导入需要用到的模块
import requests
from lxml import etree
岗位可以通过input提前输入好,传参给url
job = input('输入职位')
将需要访问的url赋给一个变量
url = 'https://www.zhipin.com/job_detail/?query=%s&city=101010100&industry=&position='%job
query=%s(%s是一个占位)在引号后面的%job就是占的值
访问这个页面需要加一个头部(headers)降低被识别爬虫的概率
在当前页面按f12点击Network,如果没有东西的话可以刷新一下页面
这里只用到两个参数,一个user-agent,一个cookie

headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Wi

本文介绍如何使用Python的requests库爬取Boss直聘上的岗位名称、薪资和地点信息。通过设置headers和cookie来降低被识别为爬虫的概率,并提供了完整的代码示例。注意,由于cookie实时更新,需要确保cookie的有效性。
最低0.47元/天 解锁文章
980

被折叠的 条评论
为什么被折叠?



