思路分析

本次的主要目的是练习使用正则表达式提取网页中的数据。
该网站的推荐古诗文一共有10页,页码可以在URL中进行控制,比如说,下面的URL指的是第一页。
https://www.gushiwen.org/default.aspx?page=1
想要第几页只需要让page等于对应的页码数即可。
页面数据的提取使用的是正则表达式,由于爬取的数据较少,这里我就直接保存成CSV文件了。
完整代码
# !/usr/bin/env python
# —*— coding: utf-8 —*—
# @Time: 2020/2/3 13:04
# @Author: Martin
# @File: ancient_poetry.py
# @Software:PyCharm
import requests
import re
import pandas as pd
def main():
endIndex = 10
data = []
url = 'https://www.gushiwen.org/default.aspx?page=%d'
for i in range(1,

这篇博客主要介绍了如何利用正则表达式从古诗文网爬取推荐古诗,涉及10页数据的抓取,并将结果保存为CSV文件。
最低0.47元/天 解锁文章
1402





