python爬虫练习-爬取洛谷题目

就是氧气c

于 2022-04-17 17:13:59 发布

阅读量1.5k

点赞数

分类专栏： python python爬虫文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/weixin_43578294/article/details/124232613

版权

python 同时被 2 个专栏收录

5 篇文章

订阅专栏

python爬虫

1 篇文章

订阅专栏

本文介绍了如何使用Python的requests和BeautifulSoup库从Luogu网站抓取问题列表，通过正则表达式解析并存储到problem.txt文件，重点在于数据抓取和解析技术的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

采用re正则表达式和bs4
并将结果写入problem.txt

import requests
import re
from bs4 import BeautifulSoup

url = "https://www.luogu.com.cn/problem/list"

header = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4533.400"
}

resp = requests.get(url,headers=header)
# print(resp.text)

page_content = BeautifulSoup(resp.text, "html.parser")
page_main_content = page_content.find("div",attrs={"class": "lg-container"})
# print(page_main_content)

# problem_list = obj.finditer(page_content)
#
# for i in problem_list:
#     print(i.group("name"))
problem_list = page_main_content.find_all("li")
# print(problem_list)
obj = re.compile(r'<li>(?P<id>.*?)<a href=".*?">(?P<name>.*?)</a></li>')

# test_str = '<li>P1035 <a href="P1035">[NOIP2002 普及组] 级数求和</a></li>'
# iterator = obj.finditer(test_str)
# for i in iterator:
#     print(i.group("name"))
with open("problem.txt", mode="w", encoding="utf-8") as f:

    for i in problem_list:
        # print(str(i))
        ite = obj.finditer(str(i))
        for j in ite:

                print(j.group("name"))
                f.write(j.group("name")+'\n')