scrapy爬取豆瓣电影列表

最新推荐文章于 2025-06-06 09:26:05 发布

风雨雾凇

最新推荐文章于 2025-06-06 09:26:05 发布

阅读量4.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： python 爬虫文章标签：豆瓣 python scrapy-爬虫 scrapy教程

本文链接：https://blog.youkuaiyun.com/qq_33850908/article/details/79063271

这篇博客详细介绍了如何使用Scrapy框架爬取豆瓣电影广州上映电影的名称。首先，介绍了所需环境和安装步骤，然后创建Scrapy项目，解析项目目录及关键文件的作用。接着，博主展示了如何在items.py、doubanMovieSpider.py和pipelines.py中编写代码以爬取和处理数据。最后，博主提醒注意添加header以避免403错误，并提供了测试成功的响应信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目标环境：

python 3.6
scrapy 1.5.0

准备：

安装scrapy ，参考：http://blog.youkuaiyun.com/yctjin/article/details/70658811
检查是否安装成功，在命令行输入：scrapy -version
这里写图片描述
如图所示则安装成功~

开始新建项目

在准备好的文件夹打开命令行，分别输入
scrapy startproject doubanMovie
cd doubanMovie
scrapy genspider doubanMovieSpider movie.douban.com/cinema/nowplaying/guangzhou/
得到结果如下所示：

D:\pythonProject\python\scrapy\test>scrapy startproject doubanMovie
New Scrapy project ‘doubanMovie’, using template directory ‘e:\python\lib\site-packages\scrapy\templates\project’, created in:
D:\pythonProject\python\scrapy\test\doubanMovie

You can start your first spider with:
cd doubanMovie
scrapy genspider example example.com

D:\pythonProject\python\scrapy\test>cd doubanMovie

D:\pythonProject\python\scrapy\test\doubanMovie>scrapy genspider doubanMovieSpider movie.douban.com/cinema/nowplaying/guangzhou/
Created spider ‘doubanMovieSpider’ using template ‘basic’ in module:
doubanMovie.spiders.doubanMovieSpider

在文件夹中输入命令 tree/f , 如文件目录如下所示这说明成功：

D:.
│ scrapy.cfg
│
└─doubanMovie
│ items.py
│ middlewares.py
│ pipelines.py
│ settings.py
│ init.py
│
├─spiders
│ │ doubanMovieSpider.py
│ │ init.py
│ │
│ └─pycache
│ init.cpython-36.pyc
│
└─pycache
settings.cpython-36.pyc
init.cpython-36.pyc

目录文件解释：

其中最主要用到的文件有4个：分别是items.py,pipelines.py,settings.py,doubanMovieSpider.py

items.py:

定义爬虫最终需要哪些项，相当于python里的字典

settings.py

配置项目,决定由谁去处理爬取的内容

pipelines.py

当scrapy爬虫抓取到网页数据后，数据如何处理取决于该文件如何设置

doubanMovieSpider.py

决定怎么爬取目标网站

其他文件

.pyc文件后缀的为python程序编译得到的字节码文件，_ init _.py文件将上级目录变成一个模块，middlewares.py 中间件，暂时没有用到。

目标url：

https://movie.douban.com/cinema/nowplaying/guangzhou/

抓取该网站上的电影名称

爬虫编写

由于我们只需要爬取电影名称，故修改items.py:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class DoubanmovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    moiveName = scrapy.Field()