
Python爬虫
若僧
精准而优雅
展开
-
爬虫基础(2)
一,URL管理器 1,功能:管理待抓取URL集合和已抓取URL集合 --防止重复抓取,防止循环抓取(如果两个URL互相指向,将造成死循环) 2,实现方式 注:大型公司用的都是缓存数据库(高性能) MySQL中的is_crawled是判断是否为待爬取的URL 小型的用Pyt...原创 2019-05-18 22:35:21 · 166 阅读 · 0 评论 -
爬虫基础(1)
一,爬虫是什么? 爬虫是一段自动抓取互联网信息的程序。(自动访问互联网)二,爬虫的价值 爬取的数据可以用来数据分析和做自己的产品三,简单爬虫架构原理 1.爬虫调度端:启动爬虫,终止爬虫,监视爬虫的运行情况。 2.URL管理器:对将要爬取的URL和已经爬取的URL进行管理。从URL管理器中可以选择一个待爬取的URL传给网页下载器。 3.网页下载器:将...原创 2019-05-15 20:56:02 · 181 阅读 · 0 评论