爬虫、服务器的原理

最新推荐文章于 2025-04-02 22:45:33 发布

bin~ibn

最新推荐文章于 2025-04-02 22:45:33 发布

阅读量743

点赞数

分类专栏：爬虫文章标签： python http

本文链接：https://blog.youkuaiyun.com/qq_42764997/article/details/105705732

版权

爬虫专栏收录该内容

13 篇文章

订阅专栏

爬虫原理

服务器的大体架构
爬虫
URL
请求方式
重要的两个属性
- Cookie和userAgent

服务器的大体架构

服务器里面有前端代码、中间层和数据库，其中中间层负责数据的处理。用户通过浏览器发出请求后被中间层拿到，向数据库进行请求，同意请求之后向前端进行数据的展示。

爬虫

爬虫中是通过代码直接对服务器发送请求，通过一个变量来接受信息，然后我们对信息进行数据的清洗，得到结果

URL

概念：用于完整的描述互联网上网页和其他资源地址的一种表示方法
要读懂URL地址，

协议：http、https、ftp等
host:服务器的IP地址或者域名，192.168.~
port：服务器的端口
path：访问资源的路径
参数：一般在？后面写，是发送给服务器的数据部分
锚点：记忆阅读，跳转到指定网页的锚点位置

请求方式

get请求：从服务器获取数据，参数都在地址栏显示（明码请求）

post请求：向服务器传送数据（参数在请求体当中）举个例子，翻译网址中将翻译的内容想服务器传递，不会将传递的参数显示在地址栏中

避免使用get请求提交表单，账号密码都在地址栏中暴露，不安全。

重要的两个属性

Cookie和userAgent

Cookie是记录上次浏览的学习，并将账号和密码进行加密
userAgent能识别用户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等信息

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bin~ibn

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

爬虫系统需要服务器吗,跑爬虫需要什么服务器配置

weixin_36485103的博客

08-12

1891

跑爬虫需要什么服务器配置内容精选换一换当出现以下问题时，可以参考本章节排查解决。可以直接访问后端业务，但是无法通过负载均衡访问后端业务。通过私网IP可以访问负载均衡，但是公网IP无法访问负载均衡。后端服务器健康检查异常。客户端通过负载均衡访问服务器示意图如图1。公网客户端的流量经过EIP传送到负载均衡器；私网客户端的流量直接通过私网IP传送到负载均衡器。负载均衡器根据监听器配虚拟IP(Virtu...

小爬虫（爬取网站的数据）

02-18

这是一个小型爬虫可以帮助大家更好的理解什么是爬虫爬虫可以用来做什么

参与评论您还未登录，请先登录后发表或查看评论

爬虫基本原理和定义

weixin_33701564的博客

01-10

248

一爬虫是什么 #1、什么是互联网？互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。 #2、互联网建立的目的？互联网的核心价值在于数据的共享/传递：数据是存放于一台台计算机上的，而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递，否则你只能拿U盘去别人的计算机上拷贝数据了。 #3、什么是上网？爬虫要...

Python网络爬虫：从入门到实践

最新发布

2501_90200491的博客

04-02

2931

网络爬虫（Web Crawler）是一种自动化程序，通过模拟人类浏览行为，从互联网上抓取、解析和存储数据。常见的应用包括：搜索引擎索引价格监控舆情分析数据采集与分析。

【爬虫代理服务器】

武帝为此的博客

08-22

680

爬虫代理服务器是一种用于网络爬取的工具，它充当爬虫与目标网站之间的中间人，将请求和响应转发。它的作用主要有两个方面：隐匿爬虫的真实身份和提供更稳定的网络环境。通过使用代理服务器，我们能够避免频繁请求导致的封IP，实现更高效的数据采集。

爬虫基本原理和概念

qiao39gs的博客

01-17

2071

目录爬虫基本流程 1.发起请求 2.获取相应内容 3.解析内容 4.保存数据 Request&Response Request中包含什么 1.请求方式 2.请求URL（统一资源定位符） 3.请求头（请求的配置信息） 4.请求体 Response中包含什么 1.响应状态 2.响应头 3.响应体能抓怎样的数据解析方式保存数据爬虫基本流程 ...

爬虫小白入门在服务器上-部署爬虫或者开服务接口并供给他人访问

十一姐的博客

07-02

4510

这个介绍了下如何在服务器上部署爬虫，已经把js服务部署成服务接口的操作方式，以及如何开自己的服务器

爬虫运行成功但没数据_我整来了几台服务器，就是为了给你演示一下分布式爬虫的整个过程...

weixin_39923806的博客

11-28

518

一般情况下scrapy是这样的可以看到1、调度器 Scheduler 会调度 Requests 队列中的请求2、然后将每个请求交给下载器 Downloader 下载3、这时候就会得到相应的 item 数据交给 item Pipeline 处理如果我们希望有多个爬虫来爬取一个网站的数据那么我们的请求队列就要共享而不能说都是 Request 队列要不然爬到的数据就都乱套了所以我们需要一个共享的队列就...

服务器端爬虫运行环境的搭建（1）

weixin_43688211的博客

07-18

524

1.python3环境的配置为了在服务器端运行爬虫代码，首先第一步是安装python3环境，以运行同学们的代码。在python官网找到python-3.7.1.tgz的地址：https://www.python.org/ftp/python/3.7.1/Python-3.7.1.tgz 接着下载安装包： wget https://www.python.org/ftp/python/3.7.1/Python-3.7.1.tgz 解压安装包： tar -zxvf Python-3.7.1.tgz 切换到

网络爬虫的工作原理是什么呢

xiaoyaozi2020的博客

05-27

276

转自：https://www.pinlue.com/article/2021/05/2700/0011616405600.html 现今很多会使用代理ip进行网络爬虫，从而提供工作效率。那么，网络爬虫的工作原理是什么呢？如果把互联网比作蜘蛛网，爬虫就是蜘蛛网上爬行的蜘蛛，网络节点则代表网页。当通过客户端发出任务需求命令时，ip将通过互联网到达终端服务器，找到客户端交代的任务。一个节点是一个网页。蜘蛛通过一个节点后，可以沿着几点连线继续爬行到达下一个节点。简而言之，爬虫首先需要获得终端服务器的网页，从那里

爬虫代理服务器原理：带你深入了解

Eonjq的博客

10-11

1175

爬虫代理服务器是指在网络爬虫运行过程中，充当中介角色的服务器。它接收爬虫的请求，并将请求转发到目标网站，然后将响应返回给爬虫。通过使用代理服务器，爬虫可以有效隐藏其真实IP地址，从而提高数据抓取的效率和安全性。爬虫代理服务器在数据抓取过程中起着至关重要的作用。通过隐藏真实IP、提高抓取效率和访问内容，代理服务器使得网络爬虫能够更有效地进行数据采集。了解爬虫代理服务器的工作原理和类型，可以帮助你在实际应用中做出更好的选择，提升数据抓取的成功率和效率。t=O83A。

爬虫能爬取网站数据库吗？

weixin_42592399的博客

02-15

1178

一般情况下，爬虫无法直接访问和爬取网站的数据库，因为数据库通常位于网站的后端服务器上，不直接面向公网，需要经过后端应用程序的授权和访问才能获取其中的数据。如果想要获取数据库中的数据，一种常见的做法是通过编写后端API接口，将需要访问的数据以一定的格式(例如JSON)进行暴露，并使用爬虫访问这些API接口获取数据。但是需要注意的是，访问API接口需要经过授权，否则可能会违反网站的规定，造成法律风险...

使用Python搭建代理服务器- 爬虫代理服务器详细指南

weixin_73725158的博客

07-24

2063

当收到 `/proxy` 路由的 GET 请求时，我们会获取 `url` 和 `proxy` 参数，并在请求中使用指定代理来访问指定的 URL。1. 添加IP限制：你可以添加一个IP白名单或黑名单，只允许特定的IP地址访问代理服务器，或者阻止特定的IP地址访问。通过上述例子的配置和改进，你可以根据实际需求来扩展和定制你的Python爬虫代理服务器。将 `url` 替换为目标网站的URL，并将 `proxy` 替换为代理服务器的地址。3. 日志记录：在代理服务器中添加日志记录功能，可以方便后续的排错和分析。

反爬虫的极致手段，几行代码直接炸了爬虫服务器

WANGJUNAIJIAO的博客

01-03

776

作为一个站长，你是不是对爬虫不胜其烦？爬虫天天来爬，速度又快，频率又高，服务器的大量资源被白白浪费。看这篇文章的你有福了，我们今天一起来报复一下爬虫，直接把爬虫的服务器给干死机。本文有一个前提：你已经知道某个请求是爬虫发来的了，你不满足于单单屏蔽对方，而是想搞死对方。

爬取服务器public文件夹,数据采集任务——爬取四川大学公共管理学院主页新闻实验报告...

weixin_30587271的博客

08-09

727

1.实验目的和要求1.1实验目的爬取公共管理学院网站上的所有新闻，了解和熟悉网络信息采集的相关技术。1.2实验要求用任何可以用的方法，爬取四川大学公共管理学院(http://ggglxy.scu.edu.cn/)上所有的新闻，包括“新闻标题、新闻发布时间、新闻正文”三个字段。我们尝试过的方法有八爪鱼数据采集工具、Python爬虫代码。2.实验环境2.1八爪鱼数据采集工具八爪鱼采集器是一个云采集服务...

【python爬虫笔记】服务器端搭建

m0_51933492的博客

11-09

1650

目录传统TCP服务器端搭建传统TCP客户端搭建引入非阻塞的TCP服务器爬虫实战：使用socket建造一个服务端使用socket建造一个客户端爬取百度首页传统TCP客户端搭建传统TCP服务器中.accept()方法是阻塞的，会造成阻塞形成网络等待在TCP服务器中使用协程，引入非阻塞，解决服务器和客户端两个线程的切换问题引入非阻塞的TCP服务器爬虫实战：使用socket建造一个服务端使用socket建造一个客户端爬取百度首页爬取到

本地爬虫链接服务器数据库存数据

糖果云专栏

04-24

331

我服务器使用的是宝塔面板，以下操作以它描述。一、服务器开启3306端口我这里是腾讯云服务器，进入服务器控制面板安全组，添加3306端口即可二、宝塔面板开启3306(如果直接服务器上创建的数据库可以跳过此步骤) 进入宝塔面板，左边菜单栏选择安全三、宝塔创建数据库四、python链接数据库 # 数据库信息 conn = pymysql.connect(host='服务器公网IP', port=3306, user='用户名', passwd='数据库密码', db='数据.

python爬虫之web服务器连接

qq_35249586的博客

05-23

660

一、web服务器整体处理过程 1、输入：URL http(https)://域名部分：端口号/目录/文件名.文件后缀 http(https)://域名部分：端口号/目录/ 2、处理过程爬虫抓取多个页面只需解析robots.txt 一次，，HTTP1.1中设置的Connection属性设置为keep-alive,表示连接会保持，服务端不会主动断开连接 2、requests和response的使用 requests.request():用于构造一个请求 requests.get():获取H

Linux服务器爬虫+Mysql琐碎笔记01

蓝一潇的博客

01-28

235

这两天搞了个爬虫放在服务器上面爬机器学习的数据，有一些细碎的东西分享。一开始用的sqlite3作为数据库，后来没过几个小时就报错database is locked了。。在这里提醒大家爬大量的数据尤其是刷新频率精确到秒的。。千万别用sqllite3。。。然后安装mysql，mysql对于ubuntu不大友好，很多依赖的库和命令（比如libaio.so）等等缺少，实在麻烦，后来把系统换成了Ce...