#短评网址
u1='https://movie.douban.com/subject/26100958/comments?start=40&limit=20&sort=new_score&status=P'
u1
输出结果为网址
#因为只有start的值不一样,所以我们可以采用格式化字符串%i来代替
u0='https://movie.douban.com/subject/26100958/comments?start=%i&limit=20&sort=new_score&status=P' %20
u0
#获取5个页面网址,并把它保存到一个列表中
url_lst=[]
for i in range(0,81,20):
u0='https://movie.douban.com/subject/26100958/comments?start=%i&limit=20&sort=new_score&status=P' %i
url_lst.append(u0)
url_lst
输出结果为:为5个网址
#访问网页
import requests #访问的工具包
import pandas as pd
from bs4 import BeautifulSoup #解析的工具包
u1=url_lst[0]#提取第一个网址
#返回response[200]代表向网页请求成功
r=requests.get(u1)
r
输出结果为:
<Response [200]>
#解析网页,会显示网页所有代码,我们就可以解析它的标签
soup=BeautifulSoup(r.text,'lxml')
#例如我要去找到复仇者联盟4:终极之战短评这几个字,是h1的标签
soup.h1
输出结果为:
复仇者联盟4:终局之战 短评
#看