语言:python 3.6 / 框架: Scrapy 1.5 / 数据库:Mysql 8.0 / IDE: pycharm
1. 生成项目
首先,安装好基本的软件。之后到项目文件夹处 按住 shift+右键,打开命令行模式。
执行 scrapy startproject [项目名] 生成项目文件。cd [项目名] 进入到项目文件夹中后执行 scrapy genspider <爬虫名> <domain/域名(起始页)> 生成爬虫文件。
2. 创建数据对象 items.py。在mysql中建立对应的数据表单。(注意表的字符编码,这里设置的数据编码是CHARACTER SET utf8 COLLATE utf8_general_ci)
class A1688Item_selloffer(scrapy.Item):
title = scrapy.Field() #标题
company = scrapy.Field() #公司
price = scrapy.Field() #售价
sell = scrapy.Field() #30天成交量
method = scrapy.Field() #销售模式
rebuy = scrapy.Field() #回头率
address = scrapy.Field() #地址
subicon = scrapy.Field() #服务保障

使用Python 3.6和Scrapy 1.5框架,结合Mysql 8.0数据库,通过PyCharm进行1688商品信息的爬取。首先创建Scrapy项目,生成爬虫文件,接着定义数据对象items.py,并在MySQL中创建匹配的表结构。然后编写爬虫逻辑以抓取网页商品信息,最后设置数据管道进行数据处理和入库。
最低0.47元/天 解锁文章
2253





