1.通讯协议
1.1 端口
端口分为两种
- 物理上的端口 :ADSL Modem、集线器、交换机、路由器用 于连接其他网络设备的接口,如RJ-45端口、SC端口等等
- 逻辑上的端口:TCP/IP协议中的端口,端口号的范围从0到65535。用于识别特殊服务,如浏览网页服务的80端口,用于FTP服务的21端口
1.2 通讯协议
- 国际组织定义的通用通讯协议为TCP/IP 协议
- 所谓协议:就是计算机网络通信过程中所必须遵守的规定和规则
- HTTP 又叫做超文本传输协议 ,它的端口号是80
2. 网络模型


2.1 HTTPS 是什么
- HTTPS = HTTP + SSL 。HTTPS 就是在HTTP的基础上加上SSL信息保护壳。加密工作就是由SSL来完成的
2.2 SSL 是什么
- SSL(安全套接字) 协议是web浏览器和web服务器之间安全信息交换的协议,提供的安全服务:鉴别和保密

3.爬虫的介绍
3.1什么是爬虫
- 网络爬虫(又被成为网络蜘蛛、网络机器人,在FOAF社区中,更经常的被称为网页追逐者)爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本
3.2 为什么需要爬虫? - 学习爬虫可以私人定制一个搜索引擎,并且可以对搜索引擎的数据采集工作原理进行更深次地理解
- 大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们获得更多的数据源,并且这些数据源可以按照我们的目的去进行采集,可以过滤掉一些不需要的信息
- 就业的角度来说,爬虫工程师是紧缺的人才,薪资待遇普遍较高,深层次的掌握这门技术,对就业来说,是非常有利的
3.3 企业获取数据的方式
- 公司自有的数据
- 第三方平台购买
- 爬虫工程师爬取的数据
3.4Python做爬虫的优势
- PHP对多线程,异步支持不太好
- Java 代码量大,代码笨重
- C/C++ 代码量大,代码难以编写
- Python:支持模块多、代码简洁、开发效率高(scrapy框架 )
3.5 爬虫的分类
- 通用网络爬虫: 百度,Google,雅虎
- 聚焦网络爬虫:根据既定的目标有选择的抓取某一特定主题内容
- 增量式网络爬虫:指对下载网页采取增量式更新和只爬新产生的或者已经发生变化的网页爬虫
- 深层网络爬虫:指那些大部分内容不能通过静态网页链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的页面 例如:用户登录注册才能访问的页面
4.爬虫的几个概念
4.1 get和post
- GET:查询参数会在url上显示出来
- POST:查询参数和需要提交的数据隐藏在form表单里面,不会在 url 上显示出来
4.2 URL 组成部分
- URL:统一资源定位符
- https://new.qq.com/omn/TWF20200/TWF2020032502924000.html
- https:协议
- new.qq.com: 域名
- port:端口号,出现在域名的后面,可以省略
- TWF20200/TWF2020032502924000.html:访问资源的路径
- #anchor: 锚点用前端在做页面定位的
- 注意:浏览器在请求这个url 的时候会对url 进行编码(除却英文字母,数字和部分表标识 其他的全部使用% 加 十六位进制编码)
- https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search
- %E6%B5%B7%E8%B4%BC%E7%8E%8B = 海贼王
4.3 User-Agent用户代理
- 作用:记录用户的浏览器,操作系统等,为了让用户更好的获取页面的效果
4.4 refer
- 表名当前这个请求是从哪个url 过来的,一般用作反爬
4.5 状态码
- 200:请求成功
- 301:永久重定向
- 302:临时重定向
- 403:服务器拒绝请求
- 404:请求失败(服务器无法根据客户端的请求找到资源)
- 500:服务器内部请求
5. 开发者工具

- Elements:网页的源代码提取数据和分析数据(有些数据是经过特殊处理的所以并不是都是准确的)
- Console:控制台(打印信息)
- Source:信息来源(整个网站加载的文件)
- Network:网站工作能够看到很多的网页请求
440

被折叠的 条评论
为什么被折叠?



