scrapy爬虫框架入门实例（爬取猫眼电影top100）

最新推荐文章于 2025-03-10 12:19:36 发布

原创

最新推荐文章于 2025-03-10 12:19:36 发布 · 1.8k 阅读

CC 4.0 BY-SA版权

文章标签：

本文介绍了如何使用Scrapy框架进行爬虫开发，以爬取猫眼电影排行榜前100的数据为例，详细阐述了安装Scrapy、创建项目、定义item、编写spider及保存数据的步骤。通过分析目标网页，提取电影名、评分、主演等信息，最终将数据保存为CSV格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

安装scrapy

因为用的是anaconda，所以直接pip install scrapy就成功了。如果不成功可以pip install lxml先,可以查看下版本

scrapy --version
Scrapy 1.7.1 - project: tutorial

在这里插入图片描述

用终端创建，cd到你放scrapy项目的文件夹，然后开始项目maoyan是你的项目名，自己取名

scrapy startproject maoyan

在这里插入图片描述

文件	功能
scrapy.cfg	配置文件
spiders	存放你Spider文件，也就是你爬取的py文件
items.py文件	相当于一个容器，和字典较像
middlewares.py文件	定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现
pipelines.py文件	定义Item Pipeline的实现，实现数据的清洗，储存，验证。
settings.py文件	全局配置

在这里插入图片描述

属性或方法	作用
name	是项目的名字
allowed_domains	是允许爬取的域名，比如一些网站有相关链接，域名就和本网站不同，这些就会忽略。
start_urls	要访问的地址列表，和start_requests方法只需要定义一个，都是调用parse方法解析
start_requests方法	由此方法通过下面链接爬取页面
parse方法	是Spider的一个方法，在请求start_url后，之后的方法，这个方法是对网页的解析，与提取自己想要的东西。
response参数	是请求网页后返回的内容，也就是你需要解析的网页。