一个Scrapy爬虫实例

本文介绍了Scrapy,一个Python编写的网络爬虫框架,详细讲述了如何安装Scrapy,以及通过实例演示创建、编辑爬虫,设置item模板、配置文件、数据处理脚本,最后成功运行爬虫爬取美剧天堂new100的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scrapy是啥

scrapy是一个使用python编写的开源网络爬虫框架。这里的框架实际上就是应用程序的骨架,是一个半成品,框架能够保证程序结构风格统一。

Scrapy的安装

pip install Scrapy。但在此之前要先安装几个包:
在cmd中运行以下语句:
(1) pip install wheel
(2) pip install lxml
(3) pip install twisted
(4) 最后 pip install scrapy
(5) 验证Scrapy框架是否安装成功:
打开python,试试import scrapy 和scrapy.version_info
验证安装
如图看到Scrapy库的版本为2.4.1

实例:爬取美剧天堂new100:

(1)创建工程:

找一个文件夹,打开cmd进入该目录。
输入命令:
Scrapy startproject movie
在这里插入图片描述
这时可以看到该目录下多了一个叫movie的文件夹,而这个文件夹里面还有一个叫movie的文件夹,里面是这样的:
在这里插入图片描述
这样Scrapy项目就成功创建了。

(2) 创建爬虫程序

用cd先进入movie目录,输入命令:
Scrapy genspider meiju meijutt.tv
在这里插入图片描述
该命令创建了一个叫meiju的爬虫
这时查看spiders目录可以看到多了一个meiju.py,就是我们刚创建的爬虫。

(3) 编辑爬虫

用编辑器打开meiju.py
这是我们的目标
这个网站的内容是我们的爬取目标

import scrapy
from movie.items import MovieItem

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值