风变作业-爬取豆瓣top250的电影

最新推荐文章于 2026-01-01 15:45:23 发布

原创最新推荐文章于 2026-01-01 15:45:23 发布 · 485 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

作业专栏收录该内容

2 篇文章

订阅专栏

这是一篇介绍使用Python进行爬虫实践的博客，作者通过分享如何爬取豆瓣电影Top250的数据，展示了基础的网络爬虫技术。过程中遇到了一些挑战，但最终成功获取了电影列表的相关信息。

入门级的作业吧……费了好长时间

import requests
# 引用BeautifulSoup库
from bs4 import BeautifulSoup

#请求头
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4302.0 Safari/537.36'}

# 获取网址
addresses = []
li=[]
j=0
while j<10:
	address_ = 'https://movie.douban.com/top250?start='+str(j*25)+'&filter='
    address = requests.get(address_,headers=headers)
    
    addresses.append(address_)
    j+=1
 #获取数据 
    all_ = BeautifulSoup(address.text,'html.parser')
    #最小父标签
    all_books = all_.find_all('div', class_="item")

    #序号，名字，评分，推荐语，链接
    for i in all_books:
        #print(i.text)
        num = i.find('em',class_="").text
        name = i.find('span', class_="title").text
        star = i.find('span', class_="rating_num").text
        url = i.find('a')['href']
        #判断comment
        try:
            comment = i.find('span', class_="inq").text
        
        except Exception: 
            comment='这部电影没推荐语哦'
        b='排序：{}，名称：{}，评分：{}，推荐语：{} 链接：{}'.format(num,name,star,comment,url)
        print(b)
        li.append(b)
#print('所有网址：',addresses,end='\n')
#print(li)

运行结果

排序：1，名称：肖申克的救赎，评分：9.7，推荐语：希望让人自由。链接：https://movie.douban.com/subject/1292052/
……
排序：220，名称：寄生虫，评分：8.7，推荐语：这部电影没推荐语哦 链接：https://movie.douban.com/subject/27010768/
……
排序：250，名称：网络谜踪，评分：8.6，推荐语：这部电影没推荐语哦 链接：https://movie.douban.com/subject/27615441/