python爬虫练习-爬取洛谷题目

本文介绍了如何使用Python的requests和BeautifulSoup库从Luogu网站抓取问题列表,通过正则表达式解析并存储到problem.txt文件,重点在于数据抓取和解析技术的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

采用re正则表达式和bs4
并将结果写入problem.txt

import requests
import re
from bs4 import BeautifulSoup

url = "https://www.luogu.com.cn/problem/list"

header = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4533.400"
}

resp = requests.get(url,headers=header)
# print(resp.text)

page_content = BeautifulSoup(resp.text, "html.parser")
page_main_content = page_content.find("div",attrs={"class": "lg-container"})
# print(page_main_content)

# problem_list = obj.finditer(page_content)
#
# for i in problem_list:
#     print(i.group("name"))
problem_list = page_main_content.find_all("li")
# print(problem_list)
obj = re.compile(r'<li>(?P<id>.*?)<a href=".*?">(?P<name>.*?)</a></li>')

# test_str = '<li>P1035 <a href="P1035">[NOIP2002 普及组] 级数求和</a></li>'
# iterator = obj.finditer(test_str)
# for i in iterator:
#     print(i.group("name"))
with open("problem.txt", mode="w", encoding="utf-8") as f:

    for i in problem_list:
        # print(str(i))
        ite = obj.finditer(str(i))
        for j in ite:

                print(j.group("name"))
                f.write(j.group("name")+'\n')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

就是氧气c

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值