Scrapy实战-爬取某博客聚合网站信息

本文介绍了使用Scrapy框架爬取一个博客聚合网站的过程,包括Scrapy的安装、项目创建、item和pipeline编写,以及MongoDB的集成。中间件设置用于伪装浏览器和控制采集频率,避免被封。最终成功爬取了博客地址,并讨论了实际操作中的时间管理和防封策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

前段时间看了一些介绍Scrapy及用Scarpy进行抓取网络信息的博客。总体来说信息量还是过少,对于一个成熟的框架来说,只看博客还是不够。所以还是看了一遍官方文档。

看完后,总要做点什么来练练手,正好前段时间在网上闲逛的时候找到了一个国内某大神做的某国外博客的聚合类网站。里面涉及到大量博客地址。点击某博客后,会列出该博客下所有视频地址。其实该网站也是一个爬虫。

将所有视频下载下来是不现实的。将博客地址存取下来即可,后续需要的时候再编写一个爬虫用于解析该博客下的所有图片、文字、视频。

Scrapy安装

Scrapy安装用pip即可。本次练习采用的是Python3.5.2,win7 64位系统。集成于Anaconda。官网上推荐如下安装方式:

conda install -c scrapinghub scrapy

但安装完后在startproject的时候出现错误。于是又用pip卸载了scrapy,再用pip安装scrapy,就行了,具体原因不详。。

开始项目

在想要存放项目的位置打开cmd。输入以下命令(XXX为项目名称):

scrapy startproject XXX

编写item

由于该网站结构比较简单,每页可提取出30个博客地
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值