crawlspider抽屉爬取实例+分布

最新推荐文章于 2019-09-20 09:47:29 发布

转载最新推荐文章于 2019-09-20 09:47:29 发布 · 88 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/michael2018/p/10505751.html

本文详细介绍使用Scrapy框架创建爬虫项目的过程，包括项目初始化、配置UA和robots.txt，以及通过CrawlSpider类实现对网站多页数据的抽取。文章还提供了具体的Python代码示例，演示如何提取和解析页面链接。

创建项目 scrapy startproject choutiPro

创建爬虫文件 scrapy genspider -t crawl chouti www.xxx.com

进入pycharm 培训setting文件

配置UA 和robotstxt 配置

ROBOTSTXT_OBEY = False

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

爬虫代码 抽屉式120页码的数据实现爬取

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class ChoutiSpider(CrawlSpider):
name = 'chouti'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://dig.chouti.com/r/scoff/hot/1']

#连接提取器：可以在起始的url对应的页面源码中提取指定符合要求的连接
#allow参数值表示的是一个正则表达式规则
Link = LinkExtractor(allow=r'/r/scoff/hot/\d+')
rules = (
#实例化了一个规则解析器对象
#follow True,会作用到没有个页码的中进行提取，这可以一直提取到页码所有页码链接
#同时调度去会给我们自动去重操作
Rule(Link, callback='parse_item', follow=True),
)

def parse_item(self, response):
#这里打印页码链接，可以进行详细解析每一个页码中数据
print(response)

转载于:https://www.cnblogs.com/michael2018/p/10505751.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30399055

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Scrapy爬取知乎热榜信息

qq_44264058的博客

03-22

1017

前两周去学习了一下Django，由于第一次接触设计模式，对于mvc设计模式还是很陌生的，花了大约一周的时间才大概熟悉了整个工作流程，第二周学会了写一些简单的网站应用，原本自己定好目标是要两周学会一个框架的，但是整网站要搞服务器，还要域名备案什么的，怪麻烦的，两周时间过去，还是没有做一个完整的Django项目，也就没脸跑去写博客来记录了。但还是不得不继续学习我计划中的下一个框架——Scrapy，从3.15到今天3.21号已经正好过去一周了，我花了四到五天的时间看完了一本半的书，周五晚上熬了个夜最终把整个scr

玩转python爬虫，从简易到复杂

Wayne12081213的博客

10-23

1716

一. urllib urllib是python中自带的一个基于爬虫的模块作用：可以使用代码模拟浏览器发起请求使用流程：指定url 发起请求获取页面数据持久化存储 1. 第一个urllib爬虫程序 # 需求：爬取搜狗首页的页面数据 import urllib.request # 1. 指定url url = 'https://www.sogou.com/' # ...

参与评论您还未登录，请先登录后发表或查看评论

爬虫第二部分

weixin_30673611的博客

07-01

120

(1)scrapy爬取豆瓣具体个人主页的内容第一步:新建项目 cd ..scrapy startproject doubanProcd doubanPro/ 第二步:新建爬虫文件 scrapy genspider douban www.douban.com 第三步:爬虫文件里边的内容 # -*- coding: utf-8 -*- import scrapy ...

day26-爬虫进阶

weixin_30411819的博客

11-28

250

5.代码书写请求-全栈数据爬取例子4：爬取所有页面choutiAll--手动请求发送形式start_urls = ['https://dig.chouti.com/r/pic/hot/1'] 解析抽屉图片下所有的超链！ #设计了一个所有页码通用的url（pageNum表示的就是不同页码） url = 'https://dig.chouti.com/r/pic/hot/%d...

爬虫-scrapy框架

weixin_30408675的博客

01-15

348

内容总览: 1.scrapy安装与pip更换下载源2.scrapy创建第一个工程于爬虫文件　　1>禁止robots协议　　2>UA伪装　　3>scrapy的xpath解析3.scrapy持久化存储　　1>基于终端指令(parse必须有一个返回值)　　2>基于管道的存储(存储到本地文件)　　3>基于管道存储(mysql,redis)4.scrapy的递归解析5....

Scrapy

范高伦的博客

09-20

1759

简介 Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试. [外链图片转存失败(img-2YfuKtrq-1564107702634)(C:\Users\aqiu\Desktop\scrapy\1.png)] Scrapy主要包括了以下组件：引擎(Scrapy) 用来...

scrapy

热门推荐

张艳秋的博客

09-02

1万+

简介 Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试. Scrapy主要包括了以下组件：引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回...

爬虫框架scrapy(二)

weixin_30551947的博客

03-20

一：scrapy核心组件的介绍 1：引擎（scrapy）：负责整个系统流程的数据处理，触发事物（核心） 2：调度器(scheduler)：将需要爬取页面地址，放入队列中（url会自动去重），并在引擎再次请求返回 3：下载器（downloader）:用于将下载的内容，返回给蜘蛛（scrapy 建立在twisted异步模型） 4：爬虫（spider）:用于数据提取（item）...

scrapy一览及源码解析

weixin_30702887的博客

01-09

332

scrapy scrapy是一个爬取网站数据，提取结构性数据的框架。注意敲重点是框架。框架就说明了什么？——提供的组件丰富，scrapy的设计参考了Django，可见一斑。但是不同于Django的是scrapy的可拓展性也很强，所以说，你说你会用python写爬虫，不了解点scrapy。。。。 scrapy使用了Twisted异步网络库来处理网络通讯，整体架构如下图： Scrapy主要包...

根据element+vue 自定义dialog+drawer组件弹窗+抽屉无覆盖 + 可拖拽.7z

12-09

在这个特定的案例中，我们讨论的是如何在Element UI的基础上自定义Dialog（对话框）和Drawer（抽屉）组件，以实现无覆盖和可拖拽的功能。 Dialog组件通常用于显示临时的信息或者进行一些交互操作，而Drawer则常用于...

C# 抽屉菜单实例(winform左侧导航菜单).rar

11-04

这个"C# 抽屉菜单实例"是一个针对WinForm应用的实现，它为用户提供了一种简洁、高效的方式来浏览和访问应用程序的不同功能模块。首先，我们需要了解C# WinForm的基础。WinForm是.NET Framework中的一个Windows桌面...

高仿网易新闻抽屉效果+横向菜单+页面滑动.zip项目安卓应用源码下载

03-09

高仿网易新闻抽屉效果+横向菜单+页面滑动.zip项目安卓应用源码下载高仿网易新闻抽屉效果+横向菜单+页面滑动.zip项目安卓应用源码下载 1.适合学生毕业设计研究参考 2.适合个人学习研究参考 3.适合公司开发项目技术...

高仿网易新闻抽屉效果+横向菜单+页面滑动.zip安卓程序项目源码资源下载

02-24

高仿网易新闻抽屉效果+横向菜单+页面滑动.zip安卓程序项目源码资源下载高仿网易新闻抽屉效果+横向菜单+页面滑动.zip安卓程序项目源码资源下载 1.适合学生做毕业设计用 2.适合程序员学习研究用 3.适合小公司换皮做新...

奥运会科普平台系统-奥运会科普平台系统源码-奥运会科普平台系统代码-springboot奥运会科普平台系统源码-基于springboot的奥运会科普平台系统设计与实现-项目代码