爬虫：基本流程和robots协议

最新推荐文章于 2025-12-17 16:02:52 发布

原创最新推荐文章于 2025-12-17 16:02:52 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

基本流程：

1.确认目标：url:www.baidu.com

2.发送请求：发送网络请求，获取到特定的服务端给你的响应

3.提取数据：从响应中提取特定的数据

4.保存数据：本地(html,json,txt)，数据库

获取到的响应中，有可能会提取到还需要继续发送请求的url，可以拿着解析到的url继续发送请求

robots协议：并不是规范，只是约定俗成的，是一种通过简单文本文件（robots.txt）来规范搜索引擎爬虫等网络机器人对网站内容访问行为的协议。

User - Agent: 用于指定适用的爬虫名称，* 代表所有爬虫。
Disallow: 后面跟禁止访问的路径，例如 /private/ 表示禁止访问所有以 /private/ 开头的目录。
Allow: 用于允许访问特定路径，常常和 Disallow 配合使用。
Sitemap: 可指定网站地图文件的位置，方便爬虫快速发现网站内容。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

π270

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

网络爬虫（Python：Requests、Beautiful Soup笔记）

算法工程师

11-26

2145

网络爬虫（Python：Requests、Beautiful Soup笔记）

第八十五篇：爬虫伦理：Robots协议、反爬虫策略与法律风险

最新发布

厚积薄发的博客

12-22

687

本文摘要（150字）：网络爬虫技术在当前数据洪流中面临重要伦理挑战。文章系统阐述了爬虫伦理的三层框架（法律合规、道德责任、社会价值）和四大原则（尊重、责任、透明、可持续），并通过医疗数据案例说明实际困境。深入解析了Robots协议的历史演变、语法规则及其法律局限性，强调其作为"君子协定"而非法律依据的本质。同时探讨了反爬虫措施的合理性边界，提出通过算法计算符合伦理的爬取频率。文章为开发者在数据价值与法律道德之间提供了平衡导航的实用指南，包含代码示例和检查清单等可操作工具。

参与评论您还未登录，请先登录后发表或查看评论

【大纲】网络爬虫前瞻

qq_48180611的博客

04-26

2639

《爬虫：从入门到入狱》

python爬虫入门之HTTP协议

weixin_74862044的博客

10-03

299

中文名：超文本传送协议外文名：Hypertext Transfer Protocol。

Robots协议（爬虫协议、机器人协议）

weixin_34253539的博客

05-07

1367

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。 ____________________________________ Robots协议也称为爬虫协议、爬虫规则、机器人协议，是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信...

爬虫的一些基本协议

HchildD

04-15

2167

爬虫使用分类通用爬虫：抓取系统中一整张页面的数据聚焦爬虫：抓取的是一整张页面中特定的局部内容，如微博页面中的评论数据增量式爬虫：监测网站中数据更新的情况，只抓取网站中最新更新的数据 Robots.txt协议（君子协议）规定了网站中哪些数据可以被爬取在网页后面加上/robots.txt是可以看到这个网页可以被爬取的数据。若是product则是不允许被爬取的 Requests模块 Python中原生的基于网络请求的模块。作用：模拟浏览器发送请求。使用： 1、指定URL； UA伪装请求参

Python 爬虫实战：初识爬虫 Robots 协议与合规爬取

2503_91057718的博客

12-17

492

本文以知乎和百度为例，系统解析Robots协议的格式、核心字段及解读方法，明确爬虫的合法爬取范围。通过实战代码演示合规爬取的实现方式，涵盖请求头规范设置、爬取频率控制、受限路径规避等关键环节。文章强调遵守Robots协议、声明爬虫身份、控制爬取频率等六大核心原则，并分析违规爬取可能面临的技术封禁、法律风险及行业排斥。最后提出商用爬虫合规强化、技术优化和伦理约束建议，指出"合规"是爬虫开发的第一准则，只有遵循规则才能发挥数据价值并规避多重风险。

Python 网络爬虫的基本流程及 robots 协议详解

srlsong的博客

07-10

1286

Python 网络爬虫的基本流程是数据采集的技术框架，而 robots 协议是规范爬虫行为的道德与技术准则。掌握请求发送、内容解析、数据存储和策略控制的核心技巧，同时严格遵守 robots 协议及相关法律法规，才能开发出高效、合规的爬虫程序。在实际应用中，开发者需始终平衡数据需求与网站权益，推动网络爬虫技术的健康发展。

Python从0到100（二十六）：爬虫基本概念、流程及https协议

05-25

8万+

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做。

社交媒体爬虫避坑指南：法律边界、robots协议解读与隐私保护实战

专注于Python爬虫开发，分享爬虫技巧、项目实战与反爬经验，使用Scrapy、BeautifulSoup等工具，解决数据抓取难题。

10-31

647

社交媒体爬虫的合规之路，本质是“敬畏法律、尊重规则、保护隐私”。作为技术人，我们不能只追求“爬得快、爬得多”，更要思考“爬得合规、爬得安心”。记住三个核心原则：只爬公开数据、只用于合法用途、不侵犯他人隐私。守住这三条底线，既能避免法律风险，也能让爬虫技术真正创造价值。你在爬取社交媒体数据时遇到过哪些合规问题？或者有哪些合规爬取的经验？欢迎在评论区留言交流，一起做守法、有道德的技术人～

爬虫Robots协议

zhangke0426的博客

02-23

1413

人生苦短，我用python！

爬虫需要知道的协议

weixin_55597573的博客

09-12

996

robots.txt协议君子协议，规定了网站中哪些数据可以被爬取 http 协议概念：就是服务器和客户端进行数据交互的一种形式常用请求头信息 Uer-Agent:表示请求载体的身份标识 connection:请求结束后，是断开连接还是保持连接常用响应头信息： content-type：服务器响应客户端的数据类型 https协议：安全的超文本传输协议加密方式：对称密钥加密密钥和密文有可能会被拦截，然后暴露非对称密钥加密效率比较低，仍存在安全隐患证书密钥加密 .

网络爬虫-Robots协议

Python_1981的博客

10-29

1050

2、案例：京东的Robots协议。三、Robots协议的基本语法。四、Robots协议的遵守方式。2、对Robots协议的理解。1、Robots协议的使用。

网络爬虫 Robots协议

zhangyu4863的博客

05-13

926

Robots协议Robots Exclusion Standard 网络爬虫排除标准作用：告知网络爬虫哪些可以爬取，哪些不可以形式：在网站根目录下的robots.txt文件例如京东的网站：Robots协议基本语法：#注释 *代表所有 \代表根目录User-agent: *Disallow: /Robots协议的使用网络爬虫：自动或人工的识别robots.txt，在进行内容爬取约束性：Robot...

爬虫基础 - Robots协议

weixin_30681121的博客

01-21

307

Robots协议指定一个robots.txt文件,告诉爬虫引擎怎么爬取 https://www.taobao.com/robots.txt User-agent: Baiduspider Allow: /article Allow: /oshtml Allow: /ershou Allow: /$ Disallow: /product/ Disallow: / ...

爬虫----robots.txt 协议简介

redrose2100的博客

11-14

2652

是一个用于指示网络爬虫（web spider或web robot）如何与网站上的内容进行交互的协议。这个文件被网站管理员放置在网站的根目录下，用于告知爬虫哪些部分的网站是可以被抓取的，哪些是不被允许的。文件是网络爬虫和网站管理员之间沟通的一个重要工具，但它的使用需要谨慎，以确保不会无意中阻止了重要内容的索引，或者暴露了不应该被公开访问的资源。文件允许网站管理员定义哪些内容可以被爬虫访问，哪些不可以。可以用来避免搜索引擎索引某些不重要的页面，从而帮助提高网站的相关页面在搜索结果中的可见度。

Robots 爬虫协议

机械搬砖工の博客

01-31

845

爬虫学的好，监狱进的早。

爬虫协议

dragongreenfire的博客

03-05

4131

这几天在爬网站时发现有个别网站抓取时返回值为None、[ ]甚至是字段中返回“系统错误”等字眼），反复确认代码无误，怀疑是网站有反爬虫机制，尝试增加header后依然无法提取，考虑到只是提取本页面数据，并没有频繁抓取数据，应该与抓取频率无关。尝试查看网站的爬虫协议： Robots 协议（也称爬虫协议，机器人协议）是互联网爬虫的一项公认的道德规范，全称是“网络爬虫排除标准（Robots exclusion protocol）”，这个协议用来告诉引擎，哪些页面是可以抓取的，哪些不可以。搜索引擎蜘蛛访问网站时

爬虫（二）一个简单的爬虫程序与Robots协议

weixin_41169182的博客

09-11

854

文章目录库的安装get请求、请求头与状态码BeautifulSoup爬取指定内容库的安装写程序之前，我们需要安装第三方库（采用的是Python语言）这里需要安装的是requests库操作流程：win + R - > 输入cmd -> Enter -> pip install requests，然后耐心等待（下面有图）由于我已经安装好了requests库，就不再重新安...