爬虫的简单介绍

最新推荐文章于 2021-07-03 22:41:08 发布

原创最新推荐文章于 2021-07-03 22:41:08 发布 · 441 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

部署运行你感兴趣的模型镜像

1.通讯协议

1.1 端口
端口分为两种

物理上的端口：ADSL Modem、集线器、交换机、路由器用于连接其他网络设备的接口，如RJ-45端口、SC端口等等
逻辑上的端口：TCP/IP协议中的端口，端口号的范围从0到65535。用于识别特殊服务，如浏览网页服务的80端口，用于FTP服务的21端口

1.2 通讯协议

国际组织定义的通用通讯协议为TCP/IP 协议
所谓协议：就是计算机网络通信过程中所必须遵守的规定和规则
HTTP 又叫做超文本传输协议，它的端口号是80

2. 网络模型

在这里插入图片描述

2.1 HTTPS 是什么

HTTPS = HTTP + SSL 。HTTPS 就是在HTTP的基础上加上SSL信息保护壳。加密工作就是由SSL来完成的

2.2 SSL 是什么

SSL（安全套接字）协议是web浏览器和web服务器之间安全信息交换的协议，提供的安全服务：鉴别和保密

3.爬虫的介绍

3.1什么是爬虫

网络爬虫（又被成为网络蜘蛛、网络机器人，在FOAF社区中，更经常的被称为网页追逐者）爬虫是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本
3.2 为什么需要爬虫？
学习爬虫可以私人定制一个搜索引擎，并且可以对搜索引擎的数据采集工作原理进行更深次地理解
大数据时代，要进行数据分析，首先要有数据源，而学习爬虫，可以让我们获得更多的数据源，并且这些数据源可以按照我们的目的去进行采集，可以过滤掉一些不需要的信息
就业的角度来说，爬虫工程师是紧缺的人才，薪资待遇普遍较高，深层次的掌握这门技术，对就业来说，是非常有利的

3.3 企业获取数据的方式

公司自有的数据
第三方平台购买
爬虫工程师爬取的数据

3.4Python做爬虫的优势

PHP对多线程，异步支持不太好
Java 代码量大，代码笨重
C/C++ 代码量大，代码难以编写
Python：支持模块多、代码简洁、开发效率高（scrapy框架）

3.5 爬虫的分类

通用网络爬虫：百度，Google，雅虎
聚焦网络爬虫：根据既定的目标有选择的抓取某一特定主题内容
增量式网络爬虫：指对下载网页采取增量式更新和只爬新产生的或者已经发生变化的网页爬虫
深层网络爬虫：指那些大部分内容不能通过静态网页链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的页面例如：用户登录注册才能访问的页面

4.爬虫的几个概念

4.1 get和post

GET：查询参数会在url上显示出来
POST：查询参数和需要提交的数据隐藏在form表单里面，不会在 url 上显示出来

4.2 URL 组成部分

URL：统一资源定位符
https://new.qq.com/omn/TWF20200/TWF2020032502924000.html
https：协议
new.qq.com：域名
port：端口号，出现在域名的后面，可以省略
TWF20200/TWF2020032502924000.html：访问资源的路径
#anchor: 锚点用前端在做页面定位的
注意：浏览器在请求这个url 的时候会对url 进行编码（除却英文字母，数字和部分表标识其他的全部使用% 加十六位进制编码）
https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search
%E6%B5%B7%E8%B4%BC%E7%8E%8B = 海贼王

4.3 User-Agent用户代理

作用：记录用户的浏览器，操作系统等，为了让用户更好的获取页面的效果

4.4 refer

表名当前这个请求是从哪个url 过来的，一般用作反爬

4.5 状态码

200：请求成功
301：永久重定向
302：临时重定向
403：服务器拒绝请求
404：请求失败（服务器无法根据客户端的请求找到资源）
500：服务器内部请求

5. 开发者工具

Elements：网页的源代码提取数据和分析数据(有些数据是经过特殊处理的所以并不是都是准确的)
Console：控制台（打印信息）
Source：信息来源（整个网站加载的文件）
Network：网站工作能够看到很多的网页请求

您可能感兴趣的与本文相关的镜像

Python3.11

Python3.11

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。