爬虫学习记录
文章平均质量分 90
灏瀚星空
青崖踏雾寻幽径,一行代码一重天。愿效羲和驭日行,探尽星河九万篇。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Tesseract 字库介绍与训练指南
Tesseract 是一款开源的光学字符识别(OCR)引擎,最初由 HP 开发,后由 Google 维护并开源。它支持多语言文本识别,可通过训练自定义字库来提升特定字体、场景下的识别准确率。常用于**验证码识别、扫描文本提取、图片文字转换**等场景。原创 2025-05-28 18:21:38 · 2314 阅读 · 3 评论 -
基于Scrapy的天猫商品数据爬取与分析实战(含API签名破解与可视化)
本文以华为Mate 60 Pro为例,详细介绍如何使用Scrapy框架爬取天猫商品数据,涵盖API签名破解、反爬应对、数据存储及可视化全流程,适合爬虫进阶学习者实践。原创 2025-05-28 06:30:00 · 2023 阅读 · 14 评论 -
Python爬虫进阶:Scrapy框架与异步编程深度实践
本文将深入讲解Scrapy框架的工程化实践,并通过异步编程实现性能突破。掌握这些技能后,你的爬虫将实现从"玩具级"到"工业级"的跨越!原创 2025-05-27 06:45:00 · 1924 阅读 · 26 评论 -
反爬攻防实战全攻略:从浏览器伪装到分布式爬虫的完整技术拆解与合规指南
本文将从浏览器指纹伪造、动态 IP 池搭建等基础伪装技术切入,深入解析验证码破解的 OCR 与打码平台方案,揭示分布式爬虫架构的任务调度与速率调控原理,并系统梳理数据采集的法律红线与合规设计原则。原创 2025-05-27 06:30:00 · 1562 阅读 · 1 评论 -
【爬虫学习】动态网页数据抓取实战:Ajax逆向与浏览器自动化
针对现代网站的动态化趋势,本文深入解析Ajax接口逆向与浏览器自动化技术。通过微博热搜实时数据抓取、知乎无限滚动内容采集等实战案例,演示如何突破动态渲染壁垒,实现结构化数据提取。原创 2025-05-26 07:00:00 · 6504 阅读 · 12 评论 -
【爬虫学习】Python数据采集进阶:从请求优化到解析技术实战
本文深入探讨Python数据采集的核心技术,涵盖HTTP请求优化、解析工具选型及性能调优。通过实战案例演示会话管理、代理池设计、解析器性能对比等关键技术,帮助读者构建高效稳定的数据采集方案。原创 2025-05-25 16:59:08 · 2567 阅读 · 32 评论 -
我的第1个爬虫程序——豆瓣Top250爬虫的详细步骤指南
我的第1个爬虫程序——豆瓣Top250爬虫的详细步骤指南原创 2025-05-25 11:35:44 · 2567 阅读 · 41 评论 -
爬虫核心概念与工作原理详解
网络爬虫(Web Crawler)是一种按照特定规则自动抓取互联网信息的程序或脚本,本质是模拟人类浏览器行为,通过HTTP请求获取网页数据并解析处理。 - **形象比喻**:如同用渔网在互联网海洋中“捞取”指定信息的自动化工具。 - **核心能力**:代替人工完成重复、批量的网页数据采集任务。原创 2025-05-24 18:29:40 · 2327 阅读 · 4 评论
分享