python爬取豆瓣top250最基础操作

博客介绍了从豆瓣电影主页抓取数据的步骤,包括找到主页、进入开发者模式、定位内容、分析网页属性等,还提到要书写并运行代码,但作者在运行代码时遇到循环出错问题,仅获取到一个页面的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、咱们先找到豆瓣主页,

地址:https://movie.douban.com/chart
在这里插入图片描述

二、分析网页属性,按F12或者鼠标右击检查即可进入开发者模式:

在这里插入图片描述

三、鼠标点击右上角的小箭头

在这里插入图片描述

四、找到我们想要的内容然后点击即可在右边的代码中定位,比如我这里点击到第一部电影的位置:

在这里插入图片描述

五、分析网页


我们需要找到电影的属性,属性自然包括电影序号、电影名称、评分、评论(推荐语)、电影链接等大概就是下面框内的属性,然后我们根据前面的方法定位到这些属性
在这里插入图片描述

六、书写代码

import requests
from bs4 import BeautifulSoup
#写一个循环来遍历每页的电影
for x in range(10):
    url='https://movie.douban.com/top250?start='+str(x*25)+'&filter='
    headers={
        'User-Agent':'Mozilla/5.0(Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3823.400 QQBrowser/10.7.4307.400'
    }#注意头部信息必不可少,不然爬不到想要的信息,我们要习惯使用头部文件
    res=requests.get(url,headers=headers)
    bs=BeautifulSoup(res.text,'html.parser')
   # print(bs)
    #查找序列号,电影名称,电影连接的标签
    tag_num=bs.find_all('div',class_='item')
    tag_comment=bs.find_all('div',class_='star')
    #查找包含评分的div标签
    tag_word=bs.find_all('span',class_='inq')
    list_all=[]
    for x in range(len(tag_num)):
        if tag_num[x].text[2:5]=='' or tag_num[x].text[2:5]=='' or x>=len(tag_word):
            list_movie = [tag_num[x].text[2:5], tag_num[x].find('img')['alt'], tag_comment[x].text[2:5],
                          tag_num[x].find('a')['href']]
        else:
            list_movie = [tag_num[x].text[2:5], tag_num[x].find('img')['alt'], tag_comment[x].text[2:5],
                          tag_word[x].text, tag_num[x].find('a')['href']]
            list_all.append(list_movie)
print(list_all)
            #此处引号内填写没有序列号的电影

七、运行代码
在这里插入图片描述
我这里应该是循环出错了,只得到了一个页面的数据,哪位大哥有方法了可以评论一下我,小弟不胜感激。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

千里云税毕设

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值