
python爬虫
lx5090110
这个作者很懒,什么都没留下…
展开
-
python爬虫:不需要登录静态网页抓取
简单爬虫架构URL 管理器:管理待爬取URL集合和已抓取URL集合(防止重复抓取、防止循环抓取)需要支持:1.添加新URL到待爬取集合中 2. 判断待添加URL是否在容器中 3.从url管理器中获取待爬取URL4.判断URL管理器中是否还有待爬取的URL 5.将URL从待爬取集合中移动到已爬取集合实现方式:1.将待爬取的URL集合和已爬取的URL集合存储在内存中 使用set()[为...原创 2018-03-08 18:04:48 · 1914 阅读 · 0 评论 -
scrapy简单爬虫(一)
1.创建一个scrapy项目,scrapy startproject ITcast原创 2018-06-15 18:07:52 · 297 阅读 · 0 评论