1. 了解scrapy框架采集数据的原理
1个采集流程
5个核心模块
7个组成部分
安装scrapy:pip install scrapy
创建项目:scrapy startproject myspider
|--myspider/ 爬虫根目录
|--myspider/
|-- spiders/ 爬虫程序所在目录[爬虫模块]
|-- items.py 爬虫数据模型定义模块
|-- pipelines.py 爬虫管道模块
|-- settings.py 项目配置信息模块
|--scrapy.cfg项目配置模块
2. scrapy框架概述-了解官方文档-开发第一个程序
安装scrapy框架:pip install scrapy
创建第一个爬虫项目:scrapy startprject myspider
创建第一个爬虫程序: cd myspider & scrapy genspider baidu baidu.com
运行第一个爬虫程序:scrapy crawl baidu
qustions : no module namedwin32api
查询解决这个问题![和windows系统交互的一个模块]
l windows系统中安装一个可执行安装包[]
l python中通过Pip安装一个交互模块
(1) 分析目标网站的编程技术选型
原始:直接在浏览器中查看访问的页面源代码,观察实现技术[经验性]
程序:安装builtwith模块:pip install builtwith
python交互命令行中,通过builtwith.parse(url)查看目标网站网页的实现技术
作者团队:安装python-whois模块,该模块用于查看目标网站的所属组织
(2) 分析准备数据,创建scrapy爬虫项目
scrapy startprject 项目名称
(3) 分析采集目标数据,创建爬虫程序,并开发筛选数据部分代码
scrapy genspider 爬虫程序名称域名限制
(4) 运行项目
scrapy crawl 爬虫程序名称
3. scrapy数据模型的定义和入库操作