爬虫学习
文章平均质量分 95
吃手机用谁付的款
积跬步而至千里
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
自用爬虫知识总结--第二章 再识网页
本文介绍了HTML的基本语法和文档结构。HTML通过标签定义元素边界,以元素作为最小功能单元,并通过嵌套关系构建网页整体结构。文章详细讲解了成对标签和自闭合标签的区别,以及元素如何包含属性、内容来实现网页功能。同时说明了HTML需要结合CSS和JavaScript才能实现完整网页效果,但爬虫主要关注HTML内容解析。最后阐述了HTML文档的标准结构,包括根元素、head和body部分的组成及作用,为后续学习网页爬虫技术打下基础。原创 2025-07-21 10:56:15 · 1381 阅读 · 0 评论 -
自用爬虫知识总结--第一章 初识爬虫
本文介绍了网络爬虫的基本概念和工作原理。首先解释了URL的组成结构(协议、域名、路径)和两种路径映射方式:物理路径映射(直接对应服务器文件)和逻辑路径映射(通过路由规则动态生成内容)。其次详细讲解了浏览器开发者工具Network面板的使用方法,包括如何分析HTTP请求和响应状态码。最后阐述了爬虫的三个核心步骤:获取数据(发送请求)、处理数据(解析响应)、存储数据。文章为后续学习网页爬取技术奠定了理论基础,帮助读者理解从URL请求到数据获取的完整流程。原创 2025-07-17 15:52:03 · 1770 阅读 · 0 评论
分享