WEB前端基础

博客介绍了爬虫相关的W3C和HTTP标准学习方法。对于W3C标准,推荐通过浏览器操作查看网页源代码、审查元素,还建议动手制作基础网页,介绍了HTML、CSS、JavaScript、XPath、JSON的使用技巧;HTTP标准看书即可,还分享了详细的状态码整理链接。此外,提供了更多爬虫实例链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

更多爬虫实例请见 https://blog.youkuaiyun.com/weixin_39777626/article/details/81564819
这里写图片描述
#W3C标准
这部分推荐多看,浏览器(浏览器的话,我偏爱2345浏览器和FireFox,尤其在Xpath部分,FireFox的firebug,firexpath凸显绝对优势)打开任意网页,按F12;或者右击>>查看网页源代码;或者选中页面某一元素>>右击>>审查元素。
如果时间充裕的话,推荐动手试试制作网页,不需要太高端,只需最基础的那种,这里推荐使用菜鸟教程
HTML 强烈推荐动手制作网页
CSS
JavaScript
XPath 这部分我不怎么看,使用写爬虫使用xpath提取数据时,直接(2345浏览器)鼠标选中内容>>右击>>审查元素>>Copy>>Copy Xpath,这样一个xpath表达式就完成了,不放心的话,可以使用FireFox打开网页,再将刚刚的表达式粘到firebug里,回车,检验看看表达式是否正确
这里写图片描述
JSON 这部分也不怎么需要看,使用时候打开网页>>按F12>>点击NetWork>>按F5>>点击任一链接>>点击Preview,动态加载内容都在这里,可以再根据这里的内容写表达式,如下图中我想定位“特别关注”
这里写图片描述
请求页面之后,根据preview内容这么写表达式

import json
datas=json.loads(request)
data=datas['data']['groups'][0][name]

#HTTP标准
这部分看看书就够了,另外状态码部分我自己整理了一份较详细的,放在这里,遇到问题时候可以拿起来翻翻
状态码:链接:https://pan.baidu.com/s/1vX6nXuz4LOI-nDT4AK68dA 密码:5xa1

更多爬虫实例请见 https://blog.youkuaiyun.com/weixin_39777626/article/details/81564819

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值