1. 爬虫的合法性探讨
~ 法不禁止即为许可
~ robots协议
~ 隐匿身份
- 高匿商业代理
- TOR(洋葱路由)
2. 爬虫的分类
~ 通用爬虫
~ 定向爬虫
3. 爬虫程序的一般步骤
URL ---> Universal Resource Locator
URI ---> Universal Resource Identifier
URI = URL + URN
协议://用户名:口令@域名或IP地址:端口/路径1/路径2/资源名称
https://www.baidu.com:443/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png
HTTP / HTTPS ---> 超文本传输协议
HTTP请求 --------> 服务器
请求行 - 命令(GET/POST) 资源路径 协议版本
请求头 - 键值对
空行
消息体 - 发给服务器的数据
HTTP响应 <-------- 服务器
响应行 - 协议版本 响应状态码
响应头 - 键值对
~ content-type ---> MIME
- text/html
- application/json
- text/xml
- application/pdf
- image/jpeg
- image/png
空行
消息体 - 服务器返回的数据
~ 抓取页面
- urllib
- requests
get() / post() ---> Response ---> text / content / json()
Session ---> get() / post()
~ 解析页面
~ 数据持久化
4. HTML页面的结构
超文本标签语言 ---> 所有的内容都放在标签下
~ 标签:承载内容
<p> / <h1> / <a> / <img> / <li>
~ CSS(Cascading Style Sheet):页面渲染
选择器 ---> 样式属性名: 样式属性值
- 标签选择器
- 类选择器
- ID选择器
- 父子选择器 ---> div > p
-
爬虫回顾1
最新推荐文章于 2024-07-31 22:11:56 发布