Scrapy爬虫实战项目【001】 - 抓取猫眼电影TOP100

本文介绍了一个使用Scrapy爬虫抓取猫眼电影TOP100信息并存储到MongoDB数据库的入门级项目。主要涉及Scrapy项目的创建、配置、items定义、pipelines处理,以及如何处理分页和数据查重。通过该项目,可以加深对Scrapy、CSS/XPath选择器、正则表达式以及pymongo更新语句的理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取猫眼电影TOP100

参考来源:静觅丨崔庆才的个人博客 https://cuiqingcai.com/5534.html

目的:使用Scrapy爬取猫眼电影TOP100并保存至MONGODB数据库

目标网址:http://maoyan.com/board/4?offset=0

分析/知识点:

  1. 爬取难度:
    a. 入门级,网页结构简单,静态HTML,少量JS,不涉及AJAX;
    b. 处理分页需要用到正则;

  2. MONGODB的update语句使用:
    a. update语句:具备查重/插入新数据功能,以title为查重标准

def process_item(self, item, spider):
    self.db['movies'].update({
  
  'title': item['title']}, {
  
  '$set': item}, upsert=True) #注意upsert=True,更新并插入
    return item

实际步骤:

1) 创建Scrapy项目/maoyan(spider)

Terminal: > scrapy startproject maoyan_movie
Terminal: > scrapy genspider maoyan maoyan.com/board/4?offset=   

2) 配置settings.py文件

# MONGODB配置
MONGO_URI = 'localhost'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值