【企业级推荐系统实践】Scrapy爬虫爬取新浪数据
实现目标:
1. 通过scrapy框架爬取新浪五个分类主页的数据信息
2. 并实现持久化存储进mysql数据库
主要技术路线:
scrapy,selenium,webdriver,datetime,re,python的orm框架sqlalchemy
一、爬虫框架scrapy
cmd命令行
创建scrapy爬虫项目:scrapy startproject sina sina.com
cd进入 sina文件夹
创建爬虫spider:scrapy genspider sina1
二、编写spider
单个s
原创
2020-08-21 22:19:56 ·
567 阅读 ·
0 评论