scrapy爬虫框架入门实例(爬取猫眼电影top100)
安装scrapy
因为用的是anaconda,所以直接pip install scrapy就成功了。如果不成功可以pip install lxml先,可以查看下版本
scrapy --version
Scrapy 1.7.1 - project: tutorial
scrapy组件和流程
一个简单的项目实例(爬猫眼电影排行)
用终端创建,cd到你放scrapy项目的文件夹,然后开始项目maoyan是你的项目名,自己取名
scrapy startproject maoyan
项目结构
文件 | 功能 |
---|---|
scrapy.cfg | 配置文件 |
spiders | 存放你Spider文件,也就是你爬取的py文件 |
items.py文件 | 相当于一个容器,和字典较像 |
middlewares.py文件 | 定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现 |
pipelines.py文件 | 定义Item Pipeline的实现,实现数据的清洗,储存,验证。 |
settings.py文件 | 全局配置 |
分析要爬取的网页和内容
- 要爬取的网址是’https://maoyan.com/board/4?offset=0’ 然后往后的十个网页,写成列表
- 然后是要爬取的内容:电影名、评分、主演等
创建一个spider
属性或方法 | 作用 |
---|---|
name | 是项目的名字 |
allowed_domains | 是允许爬取的域名,比如一些网站有相关链接,域名就和本网站不同,这些就会忽略。 |
start_urls | 要访问的地址列表,和start_requests方法只需要定义一个,都是调用parse方法解析 |
start_requests方法 | 由此方法通过下面链接爬取页面 |
parse方法 | 是Spider的一个方法,在请求start_url后,之后的方法,这个方法是对网页的解析,与提取自己想要的东西。 |
response参数 | 是请求网页后返回的内容,也就是你需要解析的网页。 |
import scrapy
class MySpider(</