
Scrapy
影雀
公宗号-爬虫与大模型开发;砥砺前行,为梦前行!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫玩转Scrapy单机及分布式(一)
Scrapy是一个高效的Python开源爬虫框架,具有异步并发、模块化设计等特点。文章介绍了Scrapy的核心组件(Spider、Item、Pipeline等)及工作流程,并通过名人名言爬取案例展示实际应用。此外还讲解了分布式爬虫扩展Scrapy-Redis的安装与配置。该框架适合大规模数据抓取,支持跨平台运行和自定义扩展,开发者可通过命令行工具快速创建和管理项目。后续将推出更多Scrapy使用及源码分析文章。原创 2025-06-04 17:12:52 · 640 阅读 · 0 评论 -
Scrapy POST不支持发送payload参数
1.使用scrapy发送post请求,参数为payload类型一般使用:return scrapy.FormRequest(url=url,formdata=data,headers=headers)到这步思路没有问题,问题就处在scrapy暂时不支持post发送payload类型。源码貌似formdata一般用于表单发送数据,为dict类型,而非str,所以获取会报错解决方法:使用如下方法:return scrapy.Request(url=url,原创 2021-04-22 11:39:13 · 374 阅读 · 0 评论 -
scrapy 操作MYSQL
scrapy piplines操作mysql数据库:class EducationPipeline: def __init__(self): self.connect = pymysql.connect(host='localhost', port=3306, user='root',原创 2020-11-12 15:52:02 · 797 阅读 · 0 评论 -
scrapyd部署scrapy爬虫
scrapyd是部署scrapy爬虫的服务器1、部署需要的安装包pip install scrapyd 这个是服务器pip install scrapyd-client 这个是部署客户端2、在windowns下部署 scrapyd安装好后在服务器端测试 C:\Users\hi>scrapyd 正常运行就说明安装成功了。可以浏览器访问:http://127.0.0....原创 2019-12-19 13:54:28 · 242 阅读 · 0 评论 -
Scrapy:通用爬虫CrawlSpider
爬取网站:http://example.python-scraping.com/爬取字段:name population爬取环境:Ubuntu python3.6这个例子是学习通用爬虫的案例,匹配规则经过我的改动,更加的直观主要代码如下: rules = ( Rule(LinkExtractor(allow=r'/places/default/index/...原创 2019-10-08 22:02:18 · 296 阅读 · 0 评论 -
Scrapy :全站爬取文学文章
爬取网站:www.rensheng5.com爬取内容:整站文章爬取字段:名称 时间 作者 内容保存:以每个文章的名称命名保存为txt本次采用通用爬虫爬网站:环境:Ubuntu python3.7在终端创建项目模板 CrawlSpider重要的就是Rule正则表达式的构造项目创建可见我的其他scrapy爬虫,在此不再赘述直接上主要代码: rules =...原创 2019-10-08 13:06:46 · 278 阅读 · 0 评论 -
scrapy :爬取小说
速度是相当的快的爬取整站的小说最后结果保存至mongodb数据库pycharm开发还是很好用的创建项目:scrapy startproject daomubiji 运行项目:scrapy crawl daomubisettingsDEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,app...原创 2019-08-04 21:31:12 · 516 阅读 · 0 评论 -
scrapy:爬取天堂图片库
用scrapy爬取天堂图片库:文件目录items.py文件:定义字段import scrapyclass ScraPictureItem(scrapy.Item): pic_url = scrapy.Field()spiders/pic.py:函数的主程序# -*- coding: utf-8 -*-import scrapyfrom Scra_P...原创 2019-05-08 10:01:02 · 718 阅读 · 0 评论 -
爬取我爱我家房源信息
1、创建项目scrapy startproject pachong创建文件scrapy genspider woaiwojia2、编辑items.py自定义要爬取的字段域class Pachong2Item(scrapy.Item): apartment = scrapy.Field() total_price = scrapy.Field()编辑se...原创 2019-04-04 19:48:35 · 1676 阅读 · 3 评论 -
scrapy基础框架入门介绍
scrapy框架通常用于爬取大数据量的爬取应用上首先要在电脑上安装scrapy可用pip install scrapy如果不成功就到官网下载在安装,具体操作不在这写了首先创建scrapy项目:scrapy startproject [项目名]创建爬虫文件:scrapy genspider [文件名]运行爬虫:scrapy crawl [文件名]几种常见的命令行的保存文...原创 2019-04-04 19:35:35 · 280 阅读 · 0 评论