
爬虫
月夜寻花香丶
bug制造者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫的基础概念
关于爬虫第一个要了解的就是数据的来源,大致分为以下几点: 去第三方的公司购买数据(比如企查查) 去免费的数据网站下载数据(比如国家统计局) 通过爬虫爬取数据 人工收集数据(比如问卷调查) 在上面的来源中:人工的方式费时费力,免费的数据网站上的数据质量不佳,很多第三方的数据公司他们的数据来源往往也是爬虫获取的,所以获取数据最有效的途径就是通过爬虫爬取。而爬虫获取数据的用途一般就是在网页或者app...原创 2018-12-07 17:25:24 · 173 阅读 · 0 评论 -
爬虫的分类以及爬虫的流程
1 爬虫的分类 根据被爬网站的数量的不同,我们把爬虫分为: 通用爬虫 :通常指搜索引擎的爬虫(https://www.baidu.com) 聚焦爬虫 :针对特定网站的爬虫 2 爬虫的流程 向起始url发送请求,并获取响应 对响应进行提取 如果提取url,则继续发送请求获取响应 如果提取数据,则将数据进行保存 3 robots协议 Robots协议:网站通过Robots协议告诉搜索引擎哪些页...原创 2018-12-07 17:34:54 · 346 阅读 · 0 评论