- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 常见反爬应对策略(python爬虫)
防盗链是一种防止其他网站直接链接到你的网站资源(如图片、视频、文件等)的技术。当其他网站直接链接到你的资源时,会增加你的服务器带宽消耗,可能导致额外的费用,甚至影响用户体验。防盗链通过限制资源的访问,确保只有经过授权的用户或页面可以访问这些资源。Cookie是存储在用户浏览器中的小段文本数据,用于跟踪用户会话和偏好设置。Cookie 通常由服务器在响应中设置,并由浏览器在后续请求中自动发送回服务器。代理。
2025-02-03 16:20:07
2128
1
原创 python中的session对象
库中的一个对象,用于模拟浏览器的会话。它允许你在多个请求之间保持某些参数,如 cookies 和 headers,从而模拟浏览器的行为。这对于处理需要登录或保持会话状态的网站非常有用。会自动处理 cookies,因此你不需要手动管理 cookies。这使得在多个请求之间保持会话状态变得非常简单。设置默认的请求头,这些请求头将应用于所有通过该。会自动处理 cookies 和其他会话信息。设置代理,这些代理将应用于所有通过该。方法来关闭会话,释放系统资源。
2025-02-02 19:42:52
372
原创 Xpath浅析
XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中定位和选择节点的查询语言。它通过路径表达式来选择节点,允许用户从 XML 或 HTML 文档中导航、选择特定的节点或元素,非常适合数据提取和解析。
2025-02-02 17:29:39
841
原创 BeautifulSoup 浅析
是一个用于解析 HTML 和 XML 文档的库,它提供了简单易用的接口来提取和操作文档中的数据。:指定文档的编码方式,如果文档是二进制字符串,需要指定编码方式。:指定一个解析范围,仅解析文档的特定部分,可以提高解析效率。:返回当前标签之后的第一个匹配标签,如果未找到则返回。:返回当前标签之前的第一个匹配标签,如果未找到则返回。:返回第一个匹配的下一个兄弟节点,如果未找到则返回。:返回一个列表,包含当前标签之后的所有匹配标签。:返回一个列表,包含当前标签之前的所有匹配标签。
2025-02-02 17:06:52
444
原创 html语法规则(爬虫向)
HTML文档由一系列的标签(tags)组成,标签通常成对出现,例如。:为元素定义一个类名,用于CSS样式或JavaScript操作。:声明文档类型,告诉浏览器这是一个HTML5文档。标签中提供图片的替代文本,用于图片无法显示时。:包含文档的可见内容,如文本、图片、链接等。标签可以有属性,属性用来提供额外的信息。标签用来定义文档的结构和内容的含义。:超链接,用于链接到其他页面或资源。:根元素,包裹整个HTML文档。:通用容器,用于布局和样式化。:唯一标识文档中的一个元素。:表格,用于显示结构化数据。
2025-02-02 16:39:55
930
原创 正则表达式清洗数据
匹配对象包含匹配的相关信息,如匹配的字符串、起始和结束位置等。:可选参数,指定最大替换次数,默认为 0,表示替换所有匹配项。:可选参数,指定最大分割次数,默认为 0,表示不限制分割次数。:可选参数,用于修改正则表达式的匹配行为。)匹配所有字符,包括换行符。:字符串或正则表达式对象,正则表达式模式。:可选参数,用于修改正则表达式的匹配行为。:字符串或正则表达式对象,正则表达式模式。:可选参数,用于修改正则表达式的匹配行为。:字符串或正则表达式对象,正则表达式模式。:可选参数,用于修改正则表达式的匹配行为。
2025-02-02 16:33:11
455
原创 request的get和post方法
解析响应内容为 JSON 格式,通常用于处理 API 返回的 JSON 数据。获取响应内容的二进制形式,通常用于处理二进制文件(如图片、视频等)。获取响应内容的字符串形式,通常用于处理 HTML 或纯文本内容。是默认的 HTTP 方法,通常用于安全性和敏感性较低的请求。:布尔值或字符串,是否验证服务器 TLS 证书,默认为。:用于向服务器提交数据,通常用于创建或更新操作。:用于从服务器获取数据,通常用于查询操作。对象,包含服务器的响应内容和相关信息。对象,包含服务器的响应内容和相关信息。
2025-02-02 15:51:09
804
原创 url的动态构建
B站上的python研究社up主在这一部分并没有深入讲解,而是整合到request中的一些函数中去了,不过我觉得可以单独拎出来说一说。 库的 参数可以自动将字典或元组列表编码为查询字符串。2. 使用 方法 方法可以将字典或元组列表编码为查询字符串,适合手动拼接 URL。3. 使用 方法 方法可以将基础 URL 和相对路径拼接成完整的 URL,适合处理相对路径。4. 使用 动态构建 URL对于简单的 URL 构建,可以直接使用 Python 的 功能。这种方法适用
2025-02-02 10:46:21
220
原创 HTTP协议简介及python爬虫的主要聚焦点
HTTP 是一种无状态的、基于请求-响应模式的协议,用于在客户端和服务器之间传输超文本数据。它定义了客户端如何向服务器发送请求,以及服务器如何响应这些请求。
2025-02-02 08:02:04
1568
原创 Web请求过程、服务器渲染和客户端渲染
服务器渲染(SSR):适合内容静态、对 SEO 要求高、首屏加载速度要求快的场景。客户端渲染(CSR):适合交互性强、客户端设备性能较好、对服务器负载要求低的场景。在实际开发中,也可以结合使用 SSR 和 CSR,例如使用同构框架(如 Next.js)实现服务器端渲染的同时,保留客户端的交互性。
2025-02-02 07:37:26
609
原创 python中的open函数
在 Python 中,open()是一个内置函数,用于打开文件并返回一个文件对象,通过该对象可以对文件进行读取、写入、追加等操作。
2025-02-01 20:40:30
1294
原创 python3中的urlopen()方法浅析
在 Python 3 中,是模块中的一个核心函数,用于打开和读取网络资源(通常是网页或文件)。以下是关于。
2025-02-01 20:33:44
262
原创 Java课设开发框架操作指南(非原创)
首先声明,这篇文章并不是我的原创,是我的指导老师在我做项目前给我的参考文档,但是由于csdn这里只能写转载链接,我只有文档,所以我先给大家和我的老师道个歉
2023-06-01 11:16:53
739
1
原创 基于SpringBoot和JavaFx(含CSS,sql等)的学生信息管理系统(项目报告)
1、系统基本功能要求1)学生基本信息、联系方式、入学前信息、家庭信息、社会关系等基本信息的管理2)学习信息管理,包括课程基本信息,课程中心(学分、上课时间、地点、参考资料等)选课信息,成绩信息(考勤信息,作业信息)等3)学生社会实践、学科竞赛、科技成果、培训讲座、创新项目、校外实习等创新实践信息管理4)学生荣誉信息管理,包括获得的各种称号奖励等5)学生体育活动、外出旅游、文艺演出、聚会等日常活动管理6)学生外出请假信息和生活学习消费等日志信息管理。7.各种信息整合于个人简历页面。
2023-06-01 10:54:14
972
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人