前言
嗨喽~大家好呀,这里是魔王呐 ❤ ~!
环境使用:
-
解释器版本 >>> python 3.8
-
代码编辑器 >>> pycharm 2021.2
模块使用:
-
import requests
—> 数据请求 / 第三方模块 / 需要安装
-
import re
—> 正则表达式来匹配处理字符串 / 内置模块 / 无需安装
-
from selenium import webdriver
—> 自动测试模块 pip install selenium==3.141.0 <指定版本安装>
第三方模块安装:
win + R 输入cmd 输入安装命令 pip install 模块名
(如果你觉得安装速度比较慢, 你可以切换国内镜像源)
可找我获取的:
-
驱动安装教程
-
素材: 答案ID文本获取
程序实现思路: <模板> 获取题库
一. 获取题库 --> 问题+答案
一. 数据来源分析 --> 通过浏览器 开发者工具 抓包分析
-
明确需求:
-
明确采集的网站是什么
题目答案页面: https:///Post/2c15b.htm
-
明确采集的数据是什么
-
问题
-
答案
-
-
-
分析这两个数据怎么获取
已知: 问题/答案 数据来自于 --> 答案页面 第一题: https:///Post/2c15b.htm
问题: 获取1701道题目 --> 分析每个题目答案页面URL构成
第一题: https:///Post/2c15b.htm
第二题: https:///Post/8ac1a.htm
第三题: https:///Post/e97d7.htm
2c15b / 8ac1a / e97d7
所以 只需要获取所有答案页面ID, 即可获取所有题库
二. 代码实现步骤
-
发送请求, 模拟浏览器对 答案页面url地址 发送请求
-
获取数据, 获取网页源代码
-
解析数据, 提取我们想要的数据内容
-
保存数据, 保存数据 <保存表格里面即可>
二. 进行自动答题操作
模拟人的行为, 进行答题操作
-
打开浏览器
-
访问网址 <答题网址>
循环操作:
-
浏览题目, 选择正确答案, 点击下一题
和题库的内容进行对比, 获取答案, 选择选项
-
继续答题, 继续点下一题
代码展示
python资料、源码、教程: 点击此处跳转文末名片获取
题库采集
导入模块
import requests
import re
import csv
import concurrent.futures
import parsel
def AnswerID():
f = open('答案ID.txt', encoding='utf-8')
answer_id_list = [answer_id for answer_id in f.read().split(',')]
return answer_id_list
def GetResponse(html_url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0