Python爬虫案例与实战：爬取源代码练习评测结果

原创

于 2024-08-07 09:39:22 发布 · 1.6k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

Python爬虫案例与实战：爬取源代码练习评测结果

本章案例将介绍用 Python编写程序实现简单网站的模拟登录，然后保持登录后的网页会话，并在会话中模拟网页表单提交，之后使用 Requests库的高级特性爬取提交之后的返回结果。在HTTP网页中，如登录、提交和上传等操作一般通过向网页发送请求实现。通过对网页抓包分析，判断请求操作的类型，进而用Python的Requests库构建一个网页请求，模拟实际的网页提交。
4.1网站分析
POJ是老牌的供ACM/ICPC（大学生程序设计竞赛）选手在线提交程序源代码进行评测的练习平台，提交代码后需要跳转至网站的评测状态页面，再寻找用户所提交代码的评测结果。由于这种操作相对麻烦，本案例将通过编写模拟登录网站，并且通过表单提交的方式，上传评测用代码，提交之后发送请求，获取评测结果输出。
为分析登录的请求方式，在登录界面，务必在输入账号密码前，打开浏览器的开发者模式，找到Net Work 选项。再登录，此时开发者模式下会显示登录后的各种请求，找到login项，如图4-1所示，容易分析得出登录时的请求方式是POST请求。
在这里插入图片描述
页面往下拉，登录时 POST请求的内容如图4-2所示。可以看到 POST 发送的内容，有4个参数，前两个是用户的I和密码，后两个参数固定。需注意在编写爬虫程序时，POST内容的参数值是多少。
因为只看POST请求返回结果并不能判断是否登录成功，需要分析网页验证是否登录成功。其中一种常见的验证方法是访问代码提交界面。如果未登录成功，则会弹出登录框提示登录，如图4-3所示。如果登录成功，则通过网页元素分析，查看用于POST请求的form（表格）处的操作是login（登录）还是submit（提交），如图4-4所示。对比分析得出登录状态不同时HTML 文本的不同。
在这里插入图片描述

与登录成功时的操作相似，想要分析代码提交页面，必须提前打开开发者界面，单击“提交”按钮后抓包，如图4-5所示。在代码提交POST 请求的内容中，参数分别代表题目ID、提交所用语言（在可选语言列表中选择相应的下标，如4代表 C++语言、5代表C语言）、源代码和固定参数。注意，源代码提交方式采用 base64编码，属于HTTP网页中常见的表单提交方式和内容加密方式。
最后，是获取评测结果，在实际中，POJ的评测量很大，公屏评测结果刷新很快，只能通过手动输入用户ID的方式查看特定用户的评测结果，评测结果显示界面的URL 的格式为“poj.org/status？problem_id=&.user_id=&.result=&.language=”，看出是采用 GET 方式请求结果，如图4-6所示。通过分析网页元素，可以发现一条评测结果位于HTML 文本节点的子节点，此时想要获取最新结果，只需要访问第一个子节点，再遍历其子节点获取具体评测结果。
在这里插入图片描述

4.2编写爬虫

按以上分析网页和操作的思路，可以编写爬虫，具体操作如下。
（1）main（）函数部分用于创建访问会话，并将验证登录，提交代码。注意，将获取评测结果的函数的接口放在 main（）函数中。

if __name__ == '__main__':
    user_name = 'ajshederay00616'
    logindata = {
   
   'user_id1': 'ajshederay00616',
                 'password1': '114514yjsnpi', 'B1': 'login', 'url': '%2F'}
    header = {
   
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}
    session = requests.session()
    login_req = session.post('http://poj.org/login',
                             data=logindata, headers=header)
    if login_req.status_code != 200

最低0.47元/天解锁文章

1 条评论

北风之神c 2024.10.21
总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b