Python 爬取豆瓣TOP250电影数据
爬取豆瓣TOP250电影数据是一个经典的爬虫入门项目。通过分析网页结构,使用Python的requests和BeautifulSoup库,可以高效地获取电影名称、评分、导演等信息。以下是实现方法和代码示例。
准备工作
安装必要的库:
pip install requests beautifulsoup4
导入模块:
import requests
from bs4 import BeautifulSoup
import csv
import time
分析网页结构
豆瓣TOP250的URL为https://movie.douban.com/top250,每页显示25部电影,共10页。通过观察页面,发现电影信息包含在<div class="item">标签中,关键数据如下:
- 电影名称:
<span class="title"> - 评分:
<span class="rating_num"> - 导演和年份:
<p class="">中的文本
发送请求与解析页面
定义一个函数发送请求并解析HTML:
def get_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
return BeautifulSoup(response.text, 'html.parser')
return None
提取电影数据
从解析后的页面中提取每部电影的信息:
def parse_movie(item):
title = item.find('span', class_='title').text
rating = item.find('span', class_='rating_num').text
info = item.find('p
650

被折叠的 条评论
为什么被折叠?



