基本思路:
目前已经有了一个抓取单一页面的程序,根据url特点将抓取一个页面的程序放进整个url大循环
这里看一个通用的方法:
第一步:观察网站的特点 其实只有一个数值在发生变化
#https://www...../9_1.html #https://www..../9_4.html #https://www..../9_4.html
统一写法可以是:f "https://www...../9_{i}.html"
这个f"{}" 是一个常见引用的形式 避免引号之前的内容被识别成字符串
{}大括号负责放置变量
f负责让{}里面的变量生效
i就是我们要爬取的页面 这个时候我们利用for循环
看看循环得开头怎么写
记得放置一个空列表用于保存全部的数据
all_poems=[]
for i in range(1,5):
print("正在抓取第%d页"%i)
url = f"https://www..../9_{i}.html"
#下面放置主程序 记得整体tab进行缩进
再看看最终结尾怎么写
all_poems.append(poems)
在循环一次后就把当前页面poems保存在all_poems里面 这个时候就得到了一个大型列表
最后贴出整个程序
import requests
from lxml import etree
import pandas as pd
headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome..."}
all_poems=[]
for i in range(