第一步创建项目:
移步 https://blog.youkuaiyun.com/mgmgzm/article/details/85849918 查看项目创建方法
第二步需求分析:
1) 获取腾讯招聘搜索结果页
2) 获取每一条结果对应的详情信息
3) 二次解析页面
第三步废话少说上代码:
setting文件配置:
# 打开请求头
USER_AGENT = 'day9 (+http://www.yourdomain.com)'
# 将 ROBOTSTXT_OBEY 的值改为False
ROBOTSTXT_OBEY = False
# 打开 ITEM_PIPELINES
ITEM_PIPELINES = {
'day9.pipelines.Day9Pipeline_tengxun': 300,
}
# 记录日志,在setting末尾加入
LOG_FILE = 'meiju.log'
LOG_ENABLED = True
LOG_ENCODING = 'utf-8'
LOG_LEVEL = 'DEBUG'
spider文件:
# -*- coding: utf-