豆瓣爬取250部电影保存到excel

清梦压星河_Ciao

已于 2024-10-20 17:26:47 修改

阅读量829

点赞数 12

CC 4.0 BY-SA版权

分类专栏： python python爬虫文章标签： excel python

于 2024-10-20 17:26:10 首次发布

本文链接：https://blog.youkuaiyun.com/m0_53951384/article/details/143094819

如何爬取豆瓣评分前250部的电影，我们可以使用Python来快速的实现，爬取其实就是发起网络请求，而利用程序发起可以更加方便快捷，不用频繁地进行点击，只需要我们把要爬取的数据之间相同的规律总结处理，利用这个规律解析出数据即可。
爬取的网站地址：

https://movie.douban.com/top250?start=0&filter=

进入网页后右键选择检查页面
在这里插入图片描述
通过上面的方法定位电影，能看出每部电影都在一个<li>标签中，而这些<li>标签都在一个class_='grid_view'的标签中，所以只需要遍历出250个<li>标签并且将的<li>标签中我们想要的元素提取出来即可。
下面通过代码来进行详细讲解：
若导入包失败，请先通过pip install xxx安装

import requests
from bs4 import BeautifulSoup
import xlwt


def request_douban(url):
    headers = {
   
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/88.0.4324.146 Safari/537.36',
    }

    try:
        # 使用get请求获取数据，加上请求头伪装成浏览器发起的请求尽量避免被网站反爬机制识别
        response = requests.get(url=url, headers=headers)
        # 当请求响应码为200表示请求成功，返回请求页面文本
        if response.status_code == 200:
            return response.text
    except requests.RequestException:
        return None

# 创建excel工作本
book = xlwt.Workbook(encoding='utf-8', style_compression=0)
# 创建工作表及标题行</