写这种类型的翻页代码要注意书写顺序, 首先写第一页的, 测试之后在最外面加个循环就好了.
下面是细节问题:
首先第一页和第二页的url格式不太一样, 第一反应应该是测试一下第一页能不能套用第二页的格式, 一般情况下,翻页url格式都是一样的
http://renfans.com/explore/sort_type-new__day-0__page-1
http://renfans.com/explore/sort_type-new__day-0上面两个都是第一页的链接, 那么你的第一个if条件就没必要写了, 直接累加就好了.
首先写第一页代码:
import requests, bs4
url = 'http://renfans.com/explore/sort_type-new__day-0__page-1'
r = requests.get(url)
soup = bs4.BeautifulSoup(r.text, 'lxml')
company=soup.select('.aw-question-content p a')
a_text = [c.get_text()for c in company]把最后的append改成列表解析式, 代码更紧凑. 第一页代码测试通过, 下面开始在最外部加一个循环就好了:
import requests, bs4
for page in range(1,11):
url = 'http://renfans.com/explore/sort_type-new__day-0__page-' + str(page)
r = requests.get(url)
r.encoding = 'utf-8'
soup = bs4.BeautifulSoup(r.text, 'lxml')
company=soup.select('.aw-question-content p a')
a_text = [c.get_text()for c in company]测试发现re