python中scrapy框架应用数据存入MySQL

最新推荐文章于 2024-09-25 16:13:12 发布

行走的蜗牛go

最新推荐文章于 2024-09-25 16:13:12 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫框架 python数据库文章标签：应用

本文链接：https://blog.youkuaiyun.com/weixin_43131464/article/details/82792052

爬虫框架同时被 2 个专栏收录

2 篇文章

订阅专栏

python数据库

2 篇文章

订阅专栏

本文介绍使用Scrapy框架爬取当当网商品信息的方法，详细讲解如何定义爬虫Item，设置数据管道将抓取的商品名、价格、链接及评论数存入数据库。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本项目用是scrapy框架，以爬取当当网商品信息为例，详细介绍scrapy使用。
本项目把爬到的数据放入数据库中，title与link为字符串格式，价格与评论数为浮点型，方便筛选。

首先：新建dangpjt项目

scrapy startproject dangpjt

新建后可以看到如下框架；
在这里插入图片描述
首先填写item信息：
修改原有代码为：

import scrapy

class DangpjtItem(scrapy.Item)：
    # define the fields for your item here like:
    # name = scrapy.Field()
    #商品名称
    name = scrapy.Field()  
    #价格
    price = scrapy.Field()
    商品链接
    link = scrapy.Field()
    商品评论数
    consum = scrapy.Field()
    # pass

其次，修改
在这里插入图片描述
把原代码修改为：

import pymysql
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
class DangpjtPipeline(object):
    def __init__(self):
    #连接数据库passwd自己填写
        self.conn=pymysql.connect(host='localhost',user='root',passwd='*****',db='class',charset='utf8')
    def process_item(self, item, spider):
        conn1=self.conn.cursor()
        name=item["name"]
        price=item["price"]
        link = item["link"]
        consum = item["consum"]
        #遍历列表，储存每个数据
        for i in range(0,len(name)):
            try:
            #修改各自格式
                price1=price[i]
                price1=float(price1[1:-3])
                name1 = name[i]
                if len(name1)>19:
                    name1=name1[0:19]
                link1=link[i]
              
                consum1=consum[i]
                consum1=float(consum1[:-3])
                sql="insert into file (title,price,link,consum) values ('%s','%s','%s','%s')"%(name1,price1,link1,consum1)
                conn1.execute(sql)
                self.conn.commit()
            except Exception as e :
            #接收错误
                print(e)

        return item
    def close_spider(self,spider):
        conn1.close()
        self.conn.close()

继续修改setting内容：
在这里插入图片描述
robotstxt协议，取消注释。修改为false
（仅做参考，鼓励大家遵守协议）