Python爬虫设计思路

                                 Python爬虫设计思路

一、爬虫架构

  • 爬虫调度端:一般指的入口函数,发起动作的入口。
  • URL管理器:存放待爬取网站的URL和已爬取过的URL的功能(python内存、关系数据库、缓存数据库)。
  • 网页下载器:进行页面爬取的功能(Requests、urllib2)。
  • 网页解析器:对爬取下来的数据进行清洗(BeautifulSoup)。
  • 价值数据:存放意向数据。

 

二、运行流程

 

三、分析目标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值