爬虫百战穿山甲（4）：帮学弟学妹们看看高考选科走班指南-优快云博客

本文链接：https://blog.youkuaiyun.com/2401_84692513/article/details/138325229

只要我给一个足够大的page_size，我管你几页到底啊？反正就都在一页给我到底。

开个玩笑啊，适当调节页面大小就好了，该判断还是判断一下，因为我爬完发现，这些不同的选项搭配，获取的数据量天差地别。

代码实现

#coding:utf-8

import requests

from lxml import etree

import random

user_agent_list = [

“Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15”,

]

def get_html(url,times):

‘’’

这是一个用户获取网页源数据的函数

:param url: 目标网址

:param times: 递归执行次数

:return: 如果有，就返回网页数据，如果没有，返回None

‘’’

try:

res = requests.get(url = url,headers = {

“User-Agent”:random.choice(user_agent_list)

}) #带上请求头，获取数据

if res.status_code>=200 and res.status_code<=300: #两百打头的标识符标识网页可以被获取

return res

else:

return None

except Exception as e:

print(e) # 显示报错原因（可以考虑这里写入日志）

if times>0:

get_html(url,times-1) # 递归执行

def get_data(html_data, Xpath_path):

‘’’

这是一个从网页源数据中抓取所需数据的函数

:param html_data:网页源数据 (单条数据)

:param Xpath_path: Xpath寻址方法

:return: 存储结果的列表

‘’’

data = html_data.content

data = data.decode().replace(“ ”, “”) # 删除数据中的注释

tree = etree.HTML(data) # 创建element对象

el_list = tree.xpath(Xpath_path)

return el_list

import json

fsubject_name = [“物理或历史均可”,“仅物理”,“仅历史”]

ssubject_name = [‘不提再选科目要求’,‘地理必须选考方可报考’,‘化学、地理均须选考方可报考’,‘化学、地理选考其中一门即可报考’,‘化学、生物均须选考方可报考’,‘化学、生物选考其中一门即可报考’,‘化学、思想政治选考其中一门即可报考’,‘化学必须选考方可报考’,‘生物、地理均须选考方可报考’,‘生物、地理选考其中一门即可报考’,‘生物、思想政治选考其中一门即可报考’,‘生物必须选考方可报考’,‘思想政治、地理均须选考方可报考’,‘思想政治、地理选考其中一门即可报考’,‘思想政治必须选考方可报考’]

res = get_html(‘https://wjt-subject-tool-api.sdp.101.com/v1/actions/manage?page_size=30&page=’ + str(1) + ‘&f_subject=’+‘物理或历史均可’+‘&s_subject=’+‘化学、地理均须选考方可报考’,2)

j_data = json.loads(res.content)

import openpyxl

wb = openpyxl.Workbook()

ws = wb.active

with open(“新高考选科工具.txt”,‘w+’) as w:

for f in fsubject_name:

for s in ssubject_name:

cs = wb.create_sheet(f+‘+’+s, 0)

i = 1

while (1):

res = get_html(‘https://wjt-subject-tool-api.sdp.101.com/v1/actions/manage?page_size=30&page=’ + str(i) + ‘&f_subject=’+f+‘&s_subject=’+s,2)

j_data = json.loads(res.content)