python爬取换页_Python爬虫翻页只爬取了第一页内容？

最新推荐文章于 2024-05-02 22:05:31 发布

weixin_39938312

最新推荐文章于 2024-05-02 22:05:31 发布

阅读量3.3k

点赞数 3

文章标签： python爬取换页

本文介绍了如何处理Python爬虫在翻页时只爬取第一页内容的问题。首先，检查不同页面URL的格式，通常翻页URL会有一个规律。接着，编写第一页的爬虫代码，并确保其正确运行。然后，在外层添加循环来遍历所有页面。同时，注意处理requests返回的编码问题，并使用csv模块将数据保存到文件中，避免在循环中频繁打开和关闭文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写这种类型的翻页代码要注意书写顺序, 首先写第一页的, 测试之后在最外面加个循环就好了.

下面是细节问题:

首先第一页和第二页的url格式不太一样, 第一反应应该是测试一下第一页能不能套用第二页的格式, 一般情况下,翻页url格式都是一样的

http://renfans.com/explore/sort_type-new__day-0__page-1

http://renfans.com/explore/sort_type-new__day-0上面两个都是第一页的链接, 那么你的第一个if条件就没必要写了, 直接累加就好了.

首先写第一页代码:

import requests, bs4

url = 'http://renfans.com/explore/sort_type-new__day-0__page-1'

r = requests.get(url)

soup = bs4.BeautifulSoup(r.text, 'lxml')

company=soup.select('.aw-question-content p a')

a_text = [c.get_text()for c in company]把最后的append改成列表解析式, 代码更紧凑. 第一页代码测试通过, 下面开始在最外部加一个循环就好了:

import requests, bs4

for page in range(1,11):

url = 'http://renfans.com/explore/sort_type-new__day-0__page-' + str(page)

r = requests.get(url)

r.encoding = 'utf-8'

soup = bs4.BeautifulSoup(r.text, 'lxml')

company=soup.select('.aw-question-content p a')

a_text = [c.get_text()for c in company]测试发现re

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。