爬虫的概念
爬虫可分为:
- 通用爬虫:百度、360、搜狐、谷歌、必应…
- 聚焦爬虫:
通用爬虫原理
- 抓取网页
- 采集数据
- 数据处理
- 提供检索服务
- robots.txt(口头上的协议)
聚焦爬虫——根据特定的需求,抓取指定的数据
思路:代替浏览器上网
网页的特点:
- 网页都存在唯一的URL
- 网页内容都是html结构的
- 使用的都是http、https协议
爬取步骤
- 给一个URL
- 写程序,模拟浏览器访问URL
- 解析内容;提取数据
开发环境
windows、linux
python3.6 64位
sublime text3 、pycharm
课程内容
-
使用到的库
urllib、requests、bs4… -
解析网页内容的知识
正则表达式、bs4、xpath、jsonpath -
涉及到动态html
selenium+phantomjs、chromeheadless -
scrapy框架
高性能框架使用 -
scrapy-redis组件
redis,分布式爬虫 -
涉及到爬虫,反爬虫,反反爬虫的一些内容
UA、代理、验证码、动态页面等