WEB前端基础

最新推荐文章于 2024-11-19 12:54:43 发布

小小蒲公英

最新推荐文章于 2024-11-19 12:54:43 发布

阅读量922

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫 Python

本文链接：https://blog.youkuaiyun.com/weixin_39777626/article/details/82150952

Python 同时被 2 个专栏收录

120 篇文章

订阅专栏

爬虫

39 篇文章

订阅专栏

博客介绍了爬虫相关的W3C和HTTP标准学习方法。对于W3C标准，推荐通过浏览器操作查看网页源代码、审查元素，还建议动手制作基础网页，介绍了HTML、CSS、JavaScript、XPath、JSON的使用技巧；HTTP标准看书即可，还分享了详细的状态码整理链接。此外，提供了更多爬虫实例链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

更多爬虫实例请见 https://blog.youkuaiyun.com/weixin_39777626/article/details/81564819
这里写图片描述
#W3C标准
这部分推荐多看，浏览器（浏览器的话，我偏爱2345浏览器和FireFox，尤其在Xpath部分，FireFox的firebug，firexpath凸显绝对优势）打开任意网页，按F12；或者右击>>查看网页源代码；或者选中页面某一元素>>右击>>审查元素。
如果时间充裕的话，推荐动手试试制作网页，不需要太高端，只需最基础的那种，这里推荐使用菜鸟教程
HTML 强烈推荐动手制作网页
CSS
JavaScript
XPath 这部分我不怎么看，使用写爬虫使用xpath提取数据时，直接(2345浏览器)鼠标选中内容>>右击>>审查元素>>Copy>>Copy Xpath，这样一个xpath表达式就完成了，不放心的话，可以使用FireFox打开网页，再将刚刚的表达式粘到firebug里，回车，检验看看表达式是否正确
这里写图片描述
JSON 这部分也不怎么需要看，使用时候打开网页>>按F12>>点击NetWork>>按F5>>点击任一链接>>点击Preview，动态加载内容都在这里，可以再根据这里的内容写表达式，如下图中我想定位“特别关注”

请求页面之后,根据preview内容这么写表达式

import json
datas=json.loads(request)
data=datas['data']['groups'][0][name]

#HTTP标准
这部分看看书就够了，另外状态码部分我自己整理了一份较详细的，放在这里，遇到问题时候可以拿起来翻翻
状态码：链接：https://pan.baidu.com/s/1vX6nXuz4LOI-nDT4AK68dA 密码：5xa1