
爬虫自学笔记
文章平均质量分 71
个人学习python爬虫记录
李乾星
我是一名00后来自农村爱好编程
展开
-
2023禁用谷歌浏览器自动更新最好的解决方式
2023禁用谷歌浏览器自动更新最好的解决方式原创 2023-11-09 15:23:26 · 1637 阅读 · 2 评论 -
Python爬虫学前准备
专业术语:网络爬虫(又被称为网页蜘蛛,网络机器人)网络爬虫是一种按照一定规则自动抓取互联网信息的程序或脚本,也被称为网页蜘蛛、网络机器人、网页追逐者等。随着大数据时代的来临,爬虫在互联网中的地位越来越重要,可以高效地获取我们感兴趣的信息。网页爬取是指通过网络爬虫技术从目标网站上抓取所需的数据,并进行必要的数据清洗和处理。网页爬取可以帮助我们更加高效地获取我们所需要的数据,从而提高工作效率。合法使用:使用爬虫技术要遵循相关法律和规定,不要进行违法、非法活动。尊重 robots.txt 协议。原创 2023-06-28 18:18:24 · 729 阅读 · 1 评论 -
HTTP和HTTPS的概念和区别
HTTP(超文本传输协议)和HTTPS(带有安全套接字层的超文本传输协议)是用于在客户端和服务器之间传输数据的协议。它们在安全性、性能和使用方式等方面存在显著差异。原创 2023-07-13 21:34:52 · 241 阅读 · 0 评论 -
HTTP报文详解
HTTP通信由两部分组成: 客户端请求消息 与 服务端响应消息当我们在浏览器输入URL https://www.baidu.com 的时候,浏览器发送一个Request请求去获取 https://www.baidu.com 的html文件,服务器 把Response文件对象发送回浏览器。浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。浏览器会自动再次发送Request去获取图片、CSS文件,或者JS文件。原创 2023-07-16 14:01:22 · 1300 阅读 · 0 评论 -
HTTP响应状态码---小白指南
HTTP(Hypertext Transfer Protocol)是用于在客户端和服务器之间传输信息的协议。在使用HTTP进行通信时,服务器通过HTTP响应状态码向客户端提供关于请求处理结果的信息。状态码是三位数字,用于表示不同的处理结果和行为。本文将介绍常见的HTTP响应状态码,并按照类别进行分类。原创 2023-07-13 21:37:24 · 137 阅读 · 0 评论 -
浏览器运行过程
浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样,是因为爬虫不具备渲染的能力(当然在后续学习中会借助其它工具或包来帮助爬虫对响应内容进行渲染)但是在爬虫中,爬虫只会请求url地址,对应的拿到url地址对应的响应(该响应的内容可以是html,css,js,图片等)原创 2023-07-13 21:41:58 · 124 阅读 · 0 评论 -
requests模块-简介-安装-基本使用
Requests是一个用 Python 编写的 HTTP 库,它建立在 Python 的标准库urllib的基础上。该库旨在简化与 HTTP 通信相关的任务,使开发人员能够轻松地发送 HTTP 请求,并处理服务器响应。它采用 Apache2 Licensed 开源协议,这意味着你可以在商业项目中免费使用它,同时还能自由地修改和分发代码。原创 2023-07-16 19:13:33 · 1193 阅读 · 0 评论 -
requests模块-get请求
使用 Requests 向简书发送 GET 请求。原创 2023-07-16 20:04:24 · 895 阅读 · 0 评论 -
requests模块-响应对象的text与content之间的区别
方法时,如果该响应的头部没有指定编码方式,requests库会自动推测出响应的编码方式,然后将响应内容以Unicode格式返回。但需要注意的是,由于requests库是基于chardet模块进行编码推测的,因此存在一定的误判可能性。如果需要将其解码成字符串形式,需要使用bytes对象的decode()方法来指定正确的编码方式,例如。方法返回的是二进制格式的数据,适用于处理图片、音频、视频等多媒体文件。此外,需要特别注意的是,如果响应内容为二进制数据而非文本数据,使用。方法适合处理文本信息,使用。原创 2023-07-16 20:06:58 · 429 阅读 · 0 评论 -
requests模块-响应对象的常用属性和方法
在使用 Requests 发送请求后,会得到一个 Response 响应对象。除了常用的text和content属性之外,Response 对象还提供了许多其他常用的属性和方法。原创 2023-07-16 20:09:33 · 527 阅读 · 0 评论 -
requests模块-发送带请求头的请求
Header是HTTP请求和响应中的元数据信息,用于在请求中传递附加的参数和配置。注意:Header字段名称不区分大小写。使用不同的Header字段,可以在HTTP请求中传递不同的信息,实现更灵活和个性化的请求和响应过程。但要注意,使用header时需遵循相关的HTTP规范,并确保数据的安全性和合法性。原创 2023-07-18 11:48:54 · 1252 阅读 · 0 评论 -
requests模块-发送带参数的请求
它确保URL的完整性和可传输性,因为某些字符在URL中具有特殊含义,可能会引起解析错误或干扰URL的结构。参数会作为请求体的一部分进行发送。都是搜索关键词的参数名称,只要保持URL中的参数名正确,百度搜索服务器就可以正确解析搜索关键词并返回相应的搜索结果。参数替换成其他名称,但需要确保在构建URL时,参数名称要与百度搜索服务器接受的参数名称一致。这两种方式的结果应该是相同的,都会发送一个带有指定头部和参数的GET请求到百度搜索页面。返回的URL地址中的百分号(%)符号是经过URL编码的结果,而不是加密。原创 2023-07-18 11:53:27 · 1353 阅读 · 0 评论 -
requests模块-cookies参数的使用
此外,由于Cookie存储在用户的浏览器中,可能会受到黑客的攻击和利用。通过这个Cookie,服务器能够认出你是之前的访问者,并根据你的个人喜好或登录状态来提供个性化的服务,比如显示你之前浏览过的商品、保持你的登录状态等。当你访问一个网站时,服务器会在你的浏览器中创建一个Cookie,其中包含了一些重要的信息,如你在网站上的活动记录、登录状态等。在打印的输出结果中搜索title,html中的标题文本内容如果是你的github账号,则成功利用headers参数携带cookie,获取登陆后才能访问的页面。原创 2023-08-07 13:20:17 · 3258 阅读 · 1 评论 -
requests模块-cookiejar对象的处理
在爬虫项目中,通过这种转换方法,我们可以方便地处理Cookie信息,使得爬取和模拟登录等操作更加灵活和高效。同时,理解这一细节有助于深入理解。类型的对象,其中包含了对方服务器设置在本地的Cookie信息。库的使用,以及在爬虫开发中处理Cookie相关的知识点。对象时,我们可以通过。原创 2023-08-07 13:22:32 · 1388 阅读 · 0 评论 -
requests模块-timeout参数
通过设置合理的超时时间,我们可以避免长时间的等待,提高应用的性能和用户体验。合理设置超时时间可以避免长时间等待,提高应用性能和用户体验,使整个爬虫项目更加高效稳定。在学习爬虫和request模块的过程中,掌握超时参数的使用方法对于开发者来说十分重要。通过灵活调整超时参数,我们可以优化网络请求,确保在各种情况下都能正常处理请求。在进行网上冲浪或爬虫项目开发时,我们常常会遇到网络波动和请求处理时间过长的情况。表示在发送请求后,最多等待3秒钟内返回响应,如果在规定的时间内没有得到响应,就会抛出超时异常。原创 2023-08-07 13:25:21 · 1728 阅读 · 0 评论 -
requests模块-代理proxies使用
反向代理不为浏览器或客户端转发请求,而是为最终处理请求的服务器转发请求。客户端不知道服务器的真实地址,请求发送给反向代理服务器,然后由反向代理服务器转发给最终处理请求的服务器,例如nginx。原创 2023-08-07 13:27:52 · 3828 阅读 · 0 评论 -
requests模块-verify参数与ca证书
通过这种方式,你可以绕过SSL证书验证,但请务必确保你所访问的网站是可信的,以避免潜在的安全风险。文章中讲解这个解决方案时,需要明确强调安全风险并提醒读者谨慎使用。有些网站的CA证书没有经过受信任的根证书颁发机构的认证,导致在使用浏览器上访问时会出现类似于12306网站的SSL错误提示。这在某些情况下可能会用到,但需要注意可能存在安全风险。请谨慎使用该参数,并确保你在访问的网站是可信的。参数的作用,确保读者理解该参数的用途。库发送请求时,如果访问的网站存在类似问题,会抛出包含。原创 2023-08-07 13:30:39 · 962 阅读 · 1 评论