爬取古诗文网的推荐古诗

最新推荐文章于 2024-03-04 16:27:07 发布

原创

最新推荐文章于 2024-03-04 16:27:07 发布 · 1.2k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#网络爬虫

这篇博客主要介绍了如何利用正则表达式从古诗文网爬取推荐古诗，涉及10页数据的抓取，并将结果保存为CSV文件。

爬取古诗文网的推荐古诗

思路分析
完整代码
结果展示

思路分析

在这里插入图片描述
本次的主要目的是练习使用正则表达式提取网页中的数据。
该网站的推荐古诗文一共有10页，页码可以在URL中进行控制，比如说，下面的URL指的是第一页。

https://www.gushiwen.org/default.aspx?page=1

想要第几页只需要让page等于对应的页码数即可。
页面数据的提取使用的是正则表达式，由于爬取的数据较少，这里我就直接保存成CSV文件了。

完整代码

# ！/usr/bin/env python
# —*— coding: utf-8 —*—
# @Time:    2020/2/3 13:04
# @Author:  Martin
# @File:    ancient_poetry.py
# @Software:PyCharm
import requests
import re
import pandas as pd


def main():
    endIndex = 10
    data = []
    url = 'https://www.gushiwen.org/default.aspx?page=%d'
    for i in range(1,