scrapy无法存入数据

最新推荐文章于 2022-10-17 09:17:57 发布

iGoab

最新推荐文章于 2022-10-17 09:17:57 发布

阅读量2.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： scrapy python

本文链接：https://blog.youkuaiyun.com/iGoab/article/details/75092451

爬虫专栏收录该内容

2 篇文章

订阅专栏

当整个scrapy爬取框架搭建好后，items，pipeline都设置好了，却发现通过Pipeline无法存入文件，这时候就需要设置settings.py了

在scrapy中settings中pipeline的开关是默认关闭的，需要将其注释去掉,之后就可以发挥scrapy的大刀啦。

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {'tutorial.pipelines.TutorialPipeline': 300,
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iGoab

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

scrapy-pipeline数据写入excel-openpyxl

zhu_qu_data的博客

07-29

942

scrapy-pipeline数据写入excel-openpyxl

利用scrapy框架爬去得到数据但是无法写入文件的问题

qq_38585359的博客

07-28

6006

在爬取当当网书籍信息的时候，我想把数据写入文件和数据库啊，但是那些数据都能显示在命令行中但是无法写入文件和数据库中，后来发现是在settings.py中没有将Pipeline打开，即如下图所示：这里把ITEM_PIPELINES这个字典的注释去掉之后才可以运行pipelines.py这个文件，之后就可以利用pipelines.py中的函数写入数据库和文件了...

参与评论您还未登录，请先登录后发表或查看评论

scrapy运行成功输出数据但是没有保存

weixin_43615803的博客

04-04

3916

在pipelines.py文件中创建好了保存到mysql、mongodb、或者本地的pipeline，用scrapy crawl xxx运行成功，没有报错，并且控制台成功输出数据，但是数据库和本地都没有数据，这时候要考虑的是settings.py里面是不是忘记配置了，如果想保存到mysql，mogodb需要在settings.py里面添加： MONGO_URI = 'localhost' MONG...

关于scrapy中数据为什么存储不到数据库中

qq_43596002的博客

02-04

1669

问题描述我现在想建两个表，一个存储微博人物信息，一个存储微博人物发的微博，通过user_id这个参数将他们关联起来。但是呢，第二个表，也就是微博人物转发的微博，这个数据一直存不进数据库中，不清楚为什么用的是本地MongoDB存储。尝试解决的办法一开始认为settings没有配置好，后面配置好了返回的参数在piplines都是item，但一开始我设置了四个类在pipline中，一个处理...

scrapy获取html不能写入到文件中,scrapy 正确结束但是并没有将信息存到文件中为什么？...

weixin_34188805的博客

06-03

391

按照视屏编写代码，但是就是没有运行结果(正确的运行结果会得到一个有内容的txt文件，但是我所得到的txt文件时一个空的)。请各位指教下面是代码：stocks.py# -*- coding: utf-8 -*-import scrapyimport reclass StocksSpider(scrapy.Spider):name = 'stocks'start_urls = ['http://quo...

Scrapy启用下载中间件时无法写入pipeline

知识，为共享而生

08-07

432

问题描述使用Scrapy在爬取百度的过程中，在下载中间件中加入Selenium返回加载好的页面并解析，但是使用pipeline无法把爬到的数据写入文件探索过程已经设置pipelines.py文件已经在settings.py中打开管道 spider文件中的处理函数parse()写了返回语句，控制台可以正常打印爬到的数据到此怀疑是项目框架出了问题，新建一个Scrapy project，写一个最简单的spider和pipeline文件，运行后发现可以写入框架没有问题，对比两个项目，新建的这

利用scrapy将爬到的数据保存到mysql（防止重复）

01-20

本文主要给大家介绍了关于scrapy爬到的数据保存到mysql（防止重复）的相关内容，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧。 1.环境建立 1.使用xmapp安装php, mysql ,phpmyadmin 2....

通过scrapy爬虫爬取数据，并存入elasticsearch后做的搜索引擎

02-24

scrapy 1.4.0 python 3.6.8 elasticsearch-6.5.4 node v8.11.2 vue 2.9.6 部署步骤进入elasticsearch文件中的bin文件在终端中输入： ./elasticsearch start 之后进入search文件后，在终端中输入： node index....

基于Scrapy的电商数据分析系统设计与实现.pdf

07-09

本文深入探讨了如何基于Scrapy爬虫框架设计并实现一个电商数据分析系统，特别是针对京东购物网站的产品信息和用户评论数据进行爬取和分析。随着电商行业的迅速发展，利用有效的数据分析手段来获取消费者的购物需求和...

scrapy：数据无法导出的几种情况

weixin_45753080的博客

10-17

813

scrapy：数据无法导出

scrapy爬取网页数据是返回[ ],或者说爬取不到数据的排查方法

最新发布

02-14

### 配置项设置为了使Scrapy能够将数据保存到MySQL数据库中，需要修改`settings.py`文件中的配置来激活自定义的Pipeline，并设定必要的数据库连接参数。具体来说： - 设置`ITEM_PIPELINES`字典以启用特定项目的管道类[^2]。 ```python ITEM_PIPELINES = { 'your_project_name.pipelines.YourProjectNamePipeline': 300, } ``` - 定义用于访问MySQL数据库的相关环境变量，这些信息通常也放置于同一文件内以便管理。 ```python MYSQL_CONFIG = { "HOST": "localhost", "PORT": 3306, "USER": "root", "PASSWORD": "your_password", "DATABASE": "your_database" } ``` 以上操作确保了当Spider处理完网页内容并将提取出来的Item传递给Pipeline时，后者知道要将其写入哪个数据库以及如何建立这种联系。 ### 编写Pipeline 接下来创建一个新的Python模块作为Pipeline的一部分，负责接收来自Spiders的数据对象并执行实际的持久化逻辑。以下是实现这一功能的一个简单例子[^1]。 #### 创建 `pipelines.py` 在项目根目录下编辑或新建名为`pipelines.py`的文件，加入如下代码片段： ```python import pymysql class YourProjectNamePipeline(object): def __init__(self): self.conn = None self.cursor = None @classmethod def from_crawler(cls, crawler): pipeline = cls() host = crawler.settings.get('MYSQL_CONFIG')['HOST'] port = crawler.settings.get('MYSQL_CONFIG')['PORT'] user = crawler.settings.get('MYSQL_CONFIG')['USER'] password = crawler.settings.get('MYSQL_CONFIG')['PASSWORD'] database = crawler.settings.get('MYSQL_CONFIG')['DATABASE'] pipeline.connect_db(host, port, user, password, database) return pipeline def connect_db(self, host, port, user, password, db): """Connect to the MySQL database.""" try: self.conn = pymysql.connect( host=host, port=int(port), user=user, passwd=password, db=db, charset='utf8mb4' ) self.cursor = self.conn.cursor() except Exception as e: raise ConnectionError(f"Failed connecting to MySQL server: {e}") def process_item(self, item, spider): sql = """ INSERT INTO articles(title, author, publish_date) VALUES (%s,%s,%s); """ values = ( item['title'], item['author'], item['publish_date'] ) try: self.cursor.execute(sql, values) self.conn.commit() except Exception as error: print(error) self.conn.rollback() # Rollback in case there is any error finally: return item def close_spider(self, spider): if hasattr(self, 'cursor') and self.cursor: self.cursor.close() if hasattr(self, 'conn') and self.conn: self.conn.close() ``` 这段脚本实现了几个重要的方法：初始化数据库连接(`__init__()`)；从Crawler实例获取设置并通过它们打开数据库链接(`from_crawler()`); 插入新记录(`process_item()`) 和关闭资源 (`close_spider()`)。通过上述步骤，已经完成了基本的功能需求——即让Scrapy抓取的内容被妥善地存储到了指定的MySQL表结构之中。