爬虫主体文件
zhaopin.py
import requests
import json
import time
import random
from getProduce.conn_sqlite import * # 这个地方需要自己修改
def get_overview():
kw = ['python', 'python开发', 'python工程师', 'python开发工程师', 'python爬虫工程师',
'python后端', 'python程序员', 'python大数据', '数据挖掘', '电商']
for w in kw:
err = 0
for i in range(200):
url = """https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize=90&
cityId=765&salary=0,0&workExperience=-1&education=-1&companyType=-1&
employmentType=-1&jobWelfareTag=-1&kw={}+&kt=3&=0&_v=0.61279220&
x-zp-page-request-id=20d2e31b40a649bbbf6ca46fe60fec3a-1562948729116-749702&
x-zp-client-id=91cbfd33-9b39-4114-9301-b53b6d1ba53d
""".format(90 * i, w)
if i == 0:
url = """https://fe-api.zhaopin.com/c/i/sou?pageSize=90&
cityId=765&workExperience=-1&education=-1&companyType=-1&
employmentType=-1&jobWelfareTag=-1&kw={}+&kt=3&_v=0.71451964&
x-zp-page-request-id=8e9d07af005a4ee2baaffcd8da94992c-1562949573697-740814&
x-zp-client-id=91cbfd33-9b39-4114-9301-

该博客主要介绍了如何构建爬虫主体文件,详细步骤包括存储爬取的职位信息到数据库,通过独立运行文件生成数据库,并进一步完善实现通过命令行参数执行爬虫文件。
最低0.47元/天 解锁文章
2142

被折叠的 条评论
为什么被折叠?



