入门级的作业吧……费了好长时间
import requests
# 引用BeautifulSoup库
from bs4 import BeautifulSoup
#请求头
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4302.0 Safari/537.36'}
# 获取网址
addresses = []
li=[]
j=0
while j<10:
address_ = 'https://movie.douban.com/top250?start='+str(j*25)+'&filter='
address = requests.get(address_,headers=headers)
addresses.append(address_)
j+=1
#获取数据
all_ = BeautifulSoup(address.text,'html.parser')
#最小父标签
all_books = all_.find_all('div', class_="item")
#序号,名字,评分,推荐语,链接
for i in all_books:
#print(i.text)
num = i.find('em',class_="").text
name = i.find('span', class_="title").text
star = i.find('span', class_="rating_num").text
url = i.find('a')['href']
#判断comment
try:
comment = i.find('span', class_="inq").text
except Exception:
comment='这部电影没推荐语哦'
b='排序:{},名称:{},评分:{},推荐语:{} 链接:{}'.format(num,name,star,comment,url)
print(b)
li.append(b)
#print('所有网址:',addresses,end='\n')
#print(li)
运行结果
排序:1,名称:肖申克的救赎,评分:9.7,推荐语:希望让人自由。链接:https://movie.douban.com/subject/1292052/
……
排序:220,名称:寄生虫,评分:8.7,推荐语:这部电影没推荐语哦 链接:https://movie.douban.com/subject/27010768/
……
排序:250,名称:网络谜踪,评分:8.6,推荐语:这部电影没推荐语哦 链接:https://movie.douban.com/subject/27615441/
这是一篇介绍使用Python进行爬虫实践的博客,作者通过分享如何爬取豆瓣电影Top250的数据,展示了基础的网络爬虫技术。过程中遇到了一些挑战,但最终成功获取了电影列表的相关信息。
1040





