scrapy爬虫框架入门实例(爬取猫眼电影top100)

本文介绍了如何使用Scrapy框架进行爬虫开发,以爬取猫眼电影排行榜前100的数据为例,详细阐述了安装Scrapy、创建项目、定义item、编写spider及保存数据的步骤。通过分析目标网页,提取电影名、评分、主演等信息,最终将数据保存为CSV格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

安装scrapy

因为用的是anaconda,所以直接pip install scrapy就成功了。如果不成功可以pip install lxml先,可以查看下版本

scrapy --version
Scrapy 1.7.1 - project: tutorial

scrapy组件和流程

在这里插入图片描述
在这里插入图片描述

一个简单的项目实例(爬猫眼电影排行)

用终端创建,cd到你放scrapy项目的文件夹,然后开始项目maoyan是你的项目名,自己取名

scrapy startproject maoyan

项目结构

在这里插入图片描述

文件 功能
scrapy.cfg 配置文件
spiders 存放你Spider文件,也就是你爬取的py文件
items.py文件 相当于一个容器,和字典较像
middlewares.py文件 定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现
pipelines.py文件 定义Item Pipeline的实现,实现数据的清洗,储存,验证。
settings.py文件 全局配置

分析要爬取的网页和内容

  • 要爬取的网址是’https://maoyan.com/board/4?offset=0’ 然后往后的十个网页,写成列表
  • 然后是要爬取的内容:电影名、评分、主演等

在这里插入图片描述

创建一个spider

属性或方法 作用
name 是项目的名字
allowed_domains 是允许爬取的域名,比如一些网站有相关链接,域名就和本网站不同,这些就会忽略。
start_urls 要访问的地址列表,和start_requests方法只需要定义一个,都是调用parse方法解析
start_requests方法 由此方法通过下面链接爬取页面
parse方法 是Spider的一个方法,在请求start_url后,之后的方法,这个方法是对网页的解析,与提取自己想要的东西。
response参数 是请求网页后返回的内容,也就是你需要解析的网页。
import scrapy

class MySpider(</
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值