一、爬虫基本原理
1、什么是爬虫
通俗: 解放人的双手, 去互联网获取数据, 保存数据[数据库, txt, excel, csv, pdf, 压缩文件, image, video, music]
本质: 模拟浏览器, 向服务器发送网络请求, 接受服务器返回的数据, 保存数据
2、爬虫的分类
A、通用爬虫: 百度, google, 搜狗 … 搜索引擎
B、聚焦爬虫: 根据指定的目标, 获取数据, 保存数据
3、网址的构成
例如:https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=李智恩
A、协议部分:https / http – 超文本传输协议
B、域名部分:www.baidu.com – ip地址–<外壳>–域名【方便人的记忆】
C、路径部分:一层一层的信息
D、参数部分:请求时候, 携带必要参数 – &符号链接
4、爬虫的基本步骤
A、准备网址
B、请求网址
C、解析数据
D、保存数据
5、动态【异步】页面和静态【同步】页面
A、打开浏览器
B、访问网址
C、网页空白处右键点击,查看网页源代码
D、在网页源代码中搜索网页所展示的部分(如果能搜到,则是静态网页;如果搜不到,则是动态网页)
6、请求头
A、cookies: 身份标识(登录网