scrapy 初探

1. 了解scrapy框架采集数据的原理

    1个采集流程

    5个核心模块

    7个组成部分

 安装scrapy:pip install scrapy

 创建项目:scrapy startproject myspider

|--myspider/  爬虫根目录

    |--myspider/

        |-- spiders/ 爬虫程序所在目录[爬虫模块]

        |-- items.py  爬虫数据模型定义模块

        |-- pipelines.py  爬虫管道模块

        |-- settings.py   项目配置信息模块

    |--scrapy.cfg项目配置模块

 2. scrapy框架概述-了解官方文档-开发第一个程序

 安装scrapy框架:pip install scrapy

创建第一个爬虫项目:scrapy startprject myspider

创建第一个爬虫程序: cd myspider & scrapy genspider baidu baidu.com

运行第一个爬虫程序:scrapy crawl baidu

qustions : no module namedwin32api

查询解决这个问题![windows系统交互的一个模块]

windows系统中安装一个可执行安装包[]

python中通过Pip安装一个交互模块

 (1)    分析目标网站的编程技术选型

原始:直接在浏览器中查看访问的页面源代码,观察实现技术[经验性]

程序:安装builtwith模块:pip install builtwith

    python交互命令行中,通过builtwith.parse(url)查看目标网站网页的实现技术

作者团队:安装python-whois模块,该模块用于查看目标网站的所属组织

(2)    分析准备数据,创建scrapy爬虫项目

scrapy startprject 项目名称

(3)    分析采集目标数据,创建爬虫程序,并开发筛选数据部分代码

scrapy genspider 爬虫程序名称域名限制

(4)    运行项目

scrapy crawl 爬虫程序名称

3. scrapy数据模型的定义和入库操作


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值