python 中初学爬虫的一些小知识

本文介绍了如何使用浏览器的开发者工具中的Network面板来观察和分析网络请求,特别是关注XHR(XMLHttpRequest)和Fetch技术。这两种技术允许在不刷新整个页面的情况下更新内容,提高用户体验。XHR和Fetch用于浏览器与服务器之间的数据传输,通常用于实现动态加载和实时更新功能。在网络请求的详情中,可以查看Headers、Preview、Response、Cookies和Timing等信息。对于爬虫初学者,虽然直接处理JSON数据的情况不多,但了解其作为数据交换格式的重要性是必要的。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


学习内容:

1. Network能够记录浏览器的所有请求。

     我们最常用的是:ALL(查看全部);XHR(仅查看XHR);Doc(Document,第0个请求一般在这里);Img(仅查看图片);Media(仅查看媒体文件);Other(其他)。其中,JS和CSS,则是前端代码,负责发起请求和页面实现;Font是文字的字体;而理解WS和Manifest,需要网络编程的知识,后面进一步了解。

2. 调用“检查”(ctrl+shift+i)工具,在左上方 ‘放大镜’ 处,可以查找相关你要了解的内容。

https://res.pandateacher.com/crawler-l3-8-201914.pngicon-default.png?t=M5H6https://res.pandateacher.com/crawler-l3-8-201914.png3,上方链接,是Network的一般功能。重点了解XHR:

我们平时使用浏览器上网的时候,经常有这样的情况:浏览器上方,它所访问的网址没变,但是网页里却新加了内容。比如购物网站,下滑自动加载出更多商品。在线翻译网站,输入中文实时变英文。比如,你正在使用的教学系统,每点击一次Enter就有新的内容弹出。

这个技术做Ajax技术(技术本身和爬虫关系不大,在此不做展开,你可以通过搜索了解)。应用这种技术,好处是显而易见的——更新网页内容,而不用重新加载整个网页。又省流量又省时间的,何乐而不为。

如今,比较新潮的网站都在使用这种技术来实现数据传输。只剩下一些特别老,或是特别轻量的网站,还在用老办法——加载新的内容,必须要跳转一个新网址。

这种技术在工作的时候,会创建一个XHR(或是Fetch)对象,然后利用XHR对象来实现,服务器和浏览器之间传输数据。在这里,XHRFetch并没有本质区别,只是Fetch出现得比XHR更晚一些,所以对一些开发人员来说会更好用,但作用都是一样的。

4.XHR中文件:

窗口中,我右上方框里标号的内容,从左往右分别是:Headers:标头(请求信息)、Preview:预览、Response:响应、Cookies:Cookies、Timing:时间。还有json’是一种数据交换的语法。对我们来说,它只是一种规范数据传输的格式,形式有点像字典和列表的结合体。

 5.在初学者的爬取数据过程中,json 的使用并不常用。具体可以看官方链接(这个链接是英文的,官方教程)

json — JSON encoder and decoder — Python 3.10.5 documentation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值