根据url特点循环爬取上百条网页的方法(已完成单一页面的情况下)

基本思路:

目前已经有了一个抓取单一页面的程序,根据url特点将抓取一个页面的程序放进整个url大循环

这里看一个通用的方法:

第一步:观察网站的特点 其实只有一个数值在发生变化

#https://www...../9_1.html
#https://www..../9_4.html
#https://www..../9_4.html

统一写法可以是:f "https://www...../9_{i}.html"

这个f"{}" 是一个常见引用的形式 避免引号之前的内容被识别成字符串

{}大括号负责放置变量

f负责让{}里面的变量生效

i就是我们要爬取的页面 这个时候我们利用for循环

看看循环得开头怎么写

记得放置一个空列表用于保存全部的数据

all_poems=[]
for i in range(1,5):
   print("正在抓取第%d页"%i)
   url = f"https://www..../9_{i}.html"
  #下面放置主程序 记得整体tab进行缩进

再看看最终结尾怎么写

all_poems.append(poems)

在循环一次后就把当前页面poems保存在all_poems里面 这个时候就得到了一个大型列表

最后贴出整个程序


import requests
from lxml import etree
import pandas as pd


headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome..."}
all_poems=[]
for i in range(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值