经过前期讨论,我们决定爬取以下几大公司官网发布的招聘岗位相关信息:
华为 美团 腾讯 字节跳动 联想 菜鸟 阿里巴巴淘天集团 小米
爬虫教程
创建爬虫项目
scrapy startproject 项目名
scrapy genspider example example.com
使用Pycharm打开项目
安装scrapy,selenium,driver
pip install scrapy
pip install selenium
修改settings
-
设置user-agent,取消注释DEFAULT_REQUEST_HEADERS
-
ROBOTSTXT_OBEY 设置为False(不遵循)
-
取消注释ITEM_PIPELINES
修改Items
确定好要爬取的数据字段,编写在这里
比如要爬取网址、岗位名、工作地点、工作描述
编写spiders
-
可以先编写要爬取的到底是什么网页,比如,实际上我们的数据来自于京东的岗位详情页面,所以先编写爬