自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 100 天学会爬虫 · Day 16:如何分析登录接口?爬虫视角下的登录流程拆解方法

今天你真正学会了:✔ 爬虫视角下“登录”的本质✔ 如何用 Network 拆解登录流程✔ 如何定位真正的登录接口✔ 登录请求中的三类参数✔ 用 Session 复现登录流程✔ 新手登录失败的常见原因✔ 登录分析的正确思维方式从 Day 16 开始,你已经正式进入“可拆解真实网站的爬虫阶段”。

2025-12-24 15:46:59 1314

原创 100 天学会爬虫 · Day 15:Session、Cookie、Token 到底有什么区别?一篇彻底讲清

📌 爬虫中为什么推荐使用 Session(requests)?分析 Token 从哪里来(接口 / Cookie / JS)它和 Cookie 有什么不同?为什么有的接口要 Token,有的只要 Cookie?🧠 二、Cookie 到底是什么?🔁 常见组合 1:Cookie + Session。实际上 Cookie 可能是匿名 Session。Cookie 和 Session 是不是一回事?很多时候是 Token / Cookie 不对。🔁 常见组合 2:Cookie + Token。

2025-12-23 18:22:37 784

原创 100 天学会爬虫 · Day 14:为什么有些接口必须带 Cookie?反爬中的“身份绑定”原理

从 Day 14 开始,你的爬虫已经具备了**“身份级访问能力”**,这是从脚本迈向工程的重要一步。,指的是服务器将你的访问行为,与某一个“用户身份”强绑定在一起。❌ 误区 3:只带 Cookie,不带 Headers。🧩 六、如何判断一个接口“是否必须 Cookie”?🛠 五、正确使用 Cookie 的三种方式(实战)而 Cookie,就是进入“身份层”的第一把钥匙。🧠 二、为什么有些接口“必须”带 Cookie?❌ 误区 1:认为“Cookie 只和登录有关”

2025-12-22 17:58:30 760

原创 100 天学会爬虫 · Day 13:请求头不止 User-Agent,为什么 Headers 一致性这么重要?

Headers 一致性指的是:请求头里的各个字段,在“语义、组合、行为”上是否彼此匹配,是否符合真实浏览器的习惯。真实浏览器的请求头具有几个特点:字段不多不少字段组合固定字段前后请求一致字段与 UA、行为匹配而爬虫常见问题是:只改 UA,其它字段很“空”每次请求字段不一致UA 是 Chrome,但字段像脚本今天你完成了一次非常重要的升级:✔ 明白了什么是 Headers 一致性✔ 理解服务器如何通过“组合特征”识别爬虫✔ 学会了一套稳定的 Headers 模板。

2025-12-19 14:21:08 914

原创 100 天学会爬虫 · Day 12:为什么要给爬虫加随机 User-Agent?原理与实战

这往往不是频率问题,而是另一个非常关键的“身份特征”暴露了你 ——❌ 误区 2:UA 与 Referer / Accept 不匹配。🧭 三、服务器是如何利用 User-Agent 反爬的?3️⃣ requests 默认 UA 属于“高危特征”🛠 四、正确的做法:使用“随机 User-Agent”🧠 二、为什么固定 User-Agent 很危险?📌 九、UA 在反爬体系中的位置(认知很重要)同一会话(Session)中 UA 不频繁变。🚨 七、随机 UA 的常见误区(非常重要)

2025-12-18 17:02:53 1363

原创 100 天学会爬虫 · Day 11:如何合理控制爬虫请求频率?让访问行为更像真人

从 Day 11 开始,你的爬虫已经不再是“暴力脚本”,我已经加了 Headers,为什么还是被封?📌 八、Day 11 的核心认知(非常重要)绝大多数网站,在你访问足够“像人”的情况下,🧩 六、请求频率 ≠ 并发数(新手常混淆)🧠 二、服务器是如何判断“你太快了”的?🧭 四、什么是“合理”的爬虫访问节奏?🛠 五、正确的请求频率控制方式(实战)✅ 方式 2:分段休眠(模拟真人行为)✅ 方式 4:异常后主动降速(很重要)🧠 七、如何判断你现在的频率是否安全?🚨 三、新手最常见的“频率错误写法”

2025-12-16 15:33:31 533

原创 100 天学会爬虫 · Day 10:为什么你的爬虫总被封 IP?反爬机制的第一次系统认知

这是 Day 10 的核心内容,我们来第一次系统拆解。📌 七、Day 10 到 Day 20 你将学到什么?✅ 4. Cookie / Session 不合理。,本质是网站为了保护自身资源而采取的一系列策略。从今天起,你已经不再是“只会抓页面的新手”,而是。首页 → 列表 → 详情 → 返回 → 下一页。🛠 六、Day 10 你应该掌握的“正确心态”尤其是价格、内容、用户数据、商业数据。🧠 二、网站是如何“发现”你是爬虫的?请求之间毫无关联性,看起来像“脚本”。🧩 五、反爬的“层级认知”(非常重要)

2025-12-15 18:47:21 1615

原创 100 天学会爬虫 · Day 9:CSS Selector 是什么?和 XPath 该怎么选?

CSS Selector 本来是前端用来给 HTML元素加样式的规则.title {color: red;后来爬虫工具(如 BeautifulSoup)复用了这套规则,用来定位 HTML 节点。通过 class、id、标签、层级关系,快速定位网页元素今天你系统掌握了:CSS Selector 是什么BeautifulSoup 中如何使用 CSS SelectorCSS Selector 常用写法CSS Selector 与 XPath 的核心区别不同场景下的选择策略新手常见错误与避坑。

2025-12-12 19:00:08 1429

原创 100 天学会爬虫 · Day 8:如何用 XPath 高效定位网页元素?(爬虫最常用解析方式之一)

今天你学到了:XPath 是最强大的 HTML 解析工具之一支持精确定位节点、属性、文本非常适合爬虫解析复杂网页Chrome 可以辅助生成 XPathXPath 常见的十大语法XPath 在列表结构中的应用XPath 失败的常见原因及解决方案掌握 XPath 是你成为爬虫开发者的重要里程碑,一旦熟练,再复杂的页面都能迎刃而解。如果你在写 XPath 时遇到:结构太复杂难以定位多层嵌套不知如何写路径text() 提取不到内容Chrome 生成的 XPath 不能用。

2025-12-11 16:54:37 1234

原创 100 天学会爬虫 · Day 7:如何用浏览器 Elements 面板解析网页结构?(HTML 解析基础)

今天你学到:Elements 面板是爬虫解析 HTML 的核心工具如何检查 DOM 节点、class、id、属性如何判断内容是否在 HTML 中如何为下一步提取做准备如何定位列表结构与标题结构只要你学会正确使用 Elements 面板,你的网页解析能力将大幅提高,爬虫代码也会变得清晰、高效。如果你在分析网页结构时遇到:元素定位困难DOM 与实际界面不一致内容无法在 HTML 中找到不清楚如何写 XPath / CSS不知道如何选择解析方式。

2025-12-10 19:51:14 1394

原创 100 天学会爬虫 · Day 6:什么是 Session?爬虫如何保持长时间登录状态?

你可以把 Session 想象成:浏览器的“身份持续管理器”贯穿整个访问过程的会话容器自动保存 Cookie、Headers、状态的对象你使用 session 发送的每一个请求,都处在“同一次会话”中。就像浏览器一样,它会自动:保存 Cookie带上之前的 Cookie自动处理登录状态管理认证信息维持连接让你的爬虫拥有浏览器一样的“持续性”。今天我们深入理解了 Session:Session = 具有状态管理能力的“浏览器爬虫容器”能自动保存 Cookie能保持登录状态。

2025-12-09 11:50:35 1517

原创 100 天学会爬虫 · Day 5:什么是 Cookie?为什么爬虫必须学会使用 Cookie?

如果你想从爬虫“脚本级”晋升到“工程级”,Cookie 是必须掌握的关键步骤。欢迎加我微信:cpseagogo,一起讨论爬虫中的 Cookie 与会话管理。requests 中的 Session 对象会自动管理 Cookie。Cookie 可能包含多项字段,如果你只复制了一半,会导致登录失败。✔ Cookie 过期、字段缺失、参数错误都会导致访问失败。Cookie 在爬虫领域的重要程度,可以排进前三。你会发现,在浏览器页面看到的内容,程序也能抓到。你可以在浏览器 F12 中找到 Cookie。

2025-12-08 18:24:33 1304

原创 《100 天学会爬虫 · Day 4:理解 HTTP 请求头(Headers)的作用与用法》

当你的爬虫向服务器发送请求时,请求中会携带一些信息,用来告诉服务器:你是谁?你从哪里来?你使用什么浏览器?你能接受什么格式?你的 Cookie 是什么?你的语言偏好是什么?这些信息都属于Headers(请求头)。Headers 决定了服务器会不会把数据正确返回给你。

2025-12-05 14:35:56 965

原创 100 天学会爬虫 · Day 3:GET 与 POST 请求到底有什么区别?

它们都是HTTP 请求方法,作用相当于:获取数据提交数据你访问网页、加载文章列表、获取数据接口时,大多数情况都在用 GET。当你登录、搜索、提交表单、上传数据时,就会用 POST。今天你已经彻底搞懂:GET:用于 “查询” 数据POST:用于 “提交” 数据两者的参数传递方式不同POST 常用于登录、搜索、加密接口GET 更常用于普通数据获取如何用 requests 发送这两种请求如何使用 F12 判断接口类型无论你之后写爬虫、电商监控、数据分析、接口调用,这些知识都会频繁用到。

2025-12-04 15:57:47 1360

原创 100 天学会爬虫 · Day 2:如何用浏览器 F12 找到网页真实数据源?

你在网页上看到的内容,不一定真的写在 HTML 里。很多网站都通过 Ajax、接口拉取、动态渲染、脚本生成等方式返回数据。如果你不会用 F12 分析,你十有八九抓不到关键内容。你右键查看网页源码,往往只能看到基础框架,而实际内容来自动态请求。只有找到 Ajax 请求,你才能绕开反爬、提升效率。过滤以后,页面上真正加载数据的请求就更容易看见。只要这些出现在 JSON 里,那就是你要的接口。只要你掌握了它,90% 的网站都可以轻松抓取。如果 HTML 里已经有数据,就不用抓接口。

2025-12-03 11:33:14 1252

原创 100天Python Requests 入门:如何发送第一个网络请求(第一天)

在浏览器中输入网址按下回车时,其实就是进行了一个 “GET 请求”。爬虫在模拟的就是这一过程:向服务器发送请求服务器返回内容(HTML、JSON、视频等)Python 读取并解析这些内容方法用途GET获取网页内容、抓取数据POST上传数据、登录、表单提交requests 可以非常轻松地使用这两种方式。

2025-12-02 16:30:43 490

原创 Python 爬虫入门全指南:从网络原理到实战思维,一篇读懂爬虫的底层逻辑

随着互联网数据量的爆炸式增长,“如何高效获取信息”成为了数据工程、增长分析、商业情报、产品运营等岗位的必备能力。Python 以其简洁优雅的语法和丰富的第三方库,逐渐成为最受欢迎的爬虫开发语言。“网络爬虫(Web Crawler)”是一种能够自动访问网页、抓取数据的程序,它模拟人类在浏览器中的操作,却能实现百万级规模的高速处理能力。互联网数据是各行各业的“燃料”,掌握爬虫能力,意味着你能高效地从海量信息中提取价值。很多新手只想要“代码例子”,但真正的数据工程师追求的是“结构化思维”。

2025-12-01 16:03:32 990

原创 Python 爬虫实战:批量爬取电影排行榜 + 使用代理 IP + 保存为 Excel

但选择一个靠谱稳定的代理IP,是重中之重,目前市面上有众多代理IP服务商,有很多都不能稳定的运行,可能用一半就跑路,甚至有些会导致账号被封禁,这里我推荐目前在使用的代理IP

2025-11-28 11:24:05 1147

原创 Python爬虫实战:利用代理 IP 批量下载 + 合并 B站视频

通过 Python 编写自动化脚本 —— 使用网页请求 (HTTP request)、代理 IP、然后下载视频 & 音频流 + 自动合并 —— 可以大幅提高效率,实现“批量下载 + 合并 + 存储”。若下载很多视频,可将 metadata (标题、原 URL、下载时间、文件名、状态) 写入 CSV / SQLite /其他数据库 /日志文件,便于管理。对下载/合并过程中的异常 (网络错误、解析失败、流断开等) 进行捕获与处理,并记录日志 (成功/失败、URL、时间、错误信息等),方便追踪;

2025-11-27 14:57:58 825

原创 Java爬虫实战:用代理 IP 抓取跨境电商数据

对于跨境电商数据爬虫项目,当你面临“访问量大、地域多、反爬强”的挑战,单一固定 IP 出口已经越来越难以支撑。你可以从一个小模块/少量任务开始,接入支持认证出口 IP 的代理服务(如 IPDouble 所提供的那类),替换出口 IP,观察访问效果。当你从同一个 IP 地址、高频率地向目标站点发送请求时,反爬系统很容易识别并触发限流或封禁,这对于大规模、多地域的数据采集任务而言,是一个隐形的风险。:建议在试点阶段对比“使用代理前”与“使用代理后”在成功率、延迟、失败率上的变化,再决定是否扩大应用。

2025-11-24 18:01:17 834

原创 数据爬虫实践:在 Java 项目中使用代理 IP 提升访问稳定性

如果你作为数据爬虫研发工程师,面临 “访问次数大、地域多、反爬强” 的场景,那单一固定 IP 出口可能已难以支撑。:即便 IP 在变,若请求行为仍然高度规律(如路径、间隔、Headers 恒定不变),也容易被识别。在多数爬虫任务中,若访问量大、跨地域、多节点、风控强烈,建议以“轮换 IP”为主;注:在真实项目中,你可将该逻辑封装为“代理模块”,并结合“轮换 IP 池”逻辑,每次请求前随机选择一个代理出口而非固定一个。若你仅切换 IP,但请求路径、Headers、间隔完全不变,仍可能被识别为自动化访问。

2025-11-21 16:35:13 599

原创 cURL 命令实战:通过代理切换优化动态 IP

此时,不妨试试一种“出口 IP 可控”的方式:让 cURL 命令通过代理发送,从而隐藏真实 IP、分散访问来源、提升访问稳定性。祝你命令行秒级响应、任务顺利通过!你每次都是用同一个服务器出口 IP 访问,一旦目标站点侦测到从一个 IP 发起大量请求,常见结果包括:访问速率被削、请求被降权甚至被封禁。你可将这条命令用于快速测试代理通道“是否正常使用”,并观察请求返回出的 IP 是否与服务器自身 IP 不同,以确认代理已被正确带入。:即便代理 IP 在变,若请求规律、路径固定、间隔短,很容易被识别为脚本行为。

2025-11-20 15:27:41 321

原创 Python 爬虫入门:从 0 到 1 爬取图书信息,附完整实战教程

在数据驱动的时代,网络上的公开数据是极具价值的资源 —— 无论是市场分析、学术研究还是兴趣收集,都能通过爬虫高效获取。Python 凭借简洁的语法和强大的第三方库,成为爬虫开发的首选语言。想要快速上手爬虫,掌握两个工具库就够了 —— Requests(处理网络请求)和 BeautifulSoup(解析网页数据),两者搭配使用,能解决 80% 的入门级爬虫需求。网站返回的响应内容是复杂的 HTML 代码,BeautifulSoup 能帮我们快速提取其中的有效信息,支持按标签、类名、属性等多种方式定位数据。

2025-11-19 16:41:09 1448

原创 使用 Go 构建灵活的“代理层”机制:借鉴 Java 动态代理思想

虽然 Go 语言与 Java 在语言特性上存在差异,但“代理层”这一设计思想在两者中皆有其价值。如果你正在开发大型 Go 应用、接口众多、逻辑重复、实现版本多,不妨考虑为关键接口增加一层代理包装。这样,你可以更便捷地插入统一逻辑、切换实现、增强可维护性。

2025-11-18 15:58:03 777

原创 Java爬虫实战:借助动态 IP 代理打造高效访问

通过 IPDouble 提供的“动态 IP +高可靠 IP 池+切换机制”方案,开发者能够更加灵活、高效地应对目标站点的反爬策略、地域限制及 IP 封禁风险。如果你正在执行大规模、多地域、跨网络访问的爬虫任务,将 IPDouble 纳入你的技术栈,无疑会提升访问成功率并降低封禁率。本文将以 IPDouble 为例,从为何需要、如何接入、实战流程与优化技巧四个维度,带你一站式理解如何在 Java 爬虫任务中高效运用动态 IP 代理。监控代理效果:请求成功率、延迟、被封禁 IP 率,并据此剔除低效 IP。

2025-11-14 11:45:02 799 1

原创 动态 IP 代理在爬虫项目中的实战指南

本文将以 IPDouble 全球代理为例,从为何需要、如何接入、实战流程与优化技巧四个维度,带你一站式理解如何在爬虫任务中高效运用动态 IP 代理。如果你正在执行大规模、多地域、跨网络的爬虫任务,将 IPDouble 纳入你的技术栈,将显著提高访问成功率、降低封禁率。采用动态 IP 代理(即每次或定期更换出口 IP)可有效缓解上述问题:通过模拟多点、多 IP 访问行为,提升爬虫稳定性与成功率。监控代理效果:例如请求成功率、请求延迟、被封 IP 率,并根据情况剔除低效 IP。每次请求都通过代理地址发送。

2025-11-13 17:29:12 937

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除