自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 [特殊字符] Django 4.2+ 从入门到精通:超全面学习指南

以投票系统的 “问题(Question)” 和 “选项(Choice)” 为例:python运行# 字符字段:max_length为必填参数question_text = models.CharField(max_length=200, verbose_name="问题内容")# 日期时间字段:auto_now_add=True 表示创建时自动填充当前时间pub_date = models.DateTimeField("发布日期", auto_now_add=True)

2025-12-17 19:59:02 713

原创 初识 Django:从环境搭建到第一个应用(入门完整版)

❌ 错误:创建myapp后,没在中添加✅ 解决:按第 5 节配置,添加或myapp创建项目→创建应用→注册应用→写视图→配 URL→启动服务器manage.py(管理)、(配置)、views.py(逻辑)、urls.py(路由)核心概念:项目与应用的关系、视图与 URL 的映射、请求与响应的交互数据模型(ORM):操作数据库模板系统:渲染动态 HTML表单系统:处理用户输入后台管理(Admin):快速搭建管理界面。

2025-11-24 12:35:44 554

原创 从入门到封神:DrissionPage 4.x 全场景实战指南,重新定义 Python Web 自动化效率

在 Python Web 自动化与爬虫领域,长期存在着 "鱼和熊掌不可兼得" 的困境:Selenium 能搞定动态交互却配置繁琐、效率低下,Requests+BS4 速度飞快却对 JS 渲染页面束手无策。而国产开源库 DrissionPage 的横空出世,彻底打破了这一僵局。经过 4.x 版本的重磅升级,它以双引擎架构为核心,实现了浏览器自动化与 HTTP 请求的无缝融合,用极简 API 降低使用门槛,用模块化设计提升扩展能力,成为兼顾开发效率、运行性能与反爬抗性的全能工具。

2025-11-21 21:42:40 1854

原创 Selenium3 从入门到实战:Web 自动化与爬虫完全指南

Selenium 是一款开源的Web 自动化测试框架,最初设计用于验证 Web 应用的功能正确性。其核心优势在于能够直接模拟真实用户操作浏览器(如点击、输入、滚动等),支持 Chrome、Firefox、Edge 等主流浏览器,且跨平台兼容(Windows、Mac、Linux)。随着动态网页(AJAX、Vue/React 渲染)的普及,传统爬虫(如 Requests+BeautifulSoup)难以应对需要交互或延迟加载的数据。

2025-11-19 15:11:36 2661

原创 从零搭建 Python Web 框架:从 Socket 到动态模板的完整实现

Web 框架是一套封装了 HTTP 通信、路由分发、请求处理、响应构建等核心功能的开发工具集,用于简化 Web 应用的开发流程。它屏蔽了底层网络通信的复杂细节(如 Socket 连接、HTTP 协议解析),让开发者可以专注于业务逻辑实现(如数据处理、页面渲染)。不同 Web 服务器(如 Apache、Nginx)与 Web 应用的兼容性;开发者无需关注底层 Socket 和 HTTP 协议解析;框架可专注于业务逻辑和路由处理。

2025-11-19 13:47:18 806

原创 从基础到实战:多任务爬虫全解析(进程 / 线程池 + 进程通信 + LOL 皮肤爬虫实战)

多任务适合场景:批量 IO 密集型(爬虫、文件读写)或 CPU 密集型(计算、数据处理)任务;进程通信首选 Queue:简单、安全、高效,适合多进程数据传递;池的选型原则:IO 密集用线程池(低开销、高并发),CPU 密集用进程池(充分利用多核);爬虫优化关键:反爬防护、异常处理、资源控制(内存 / 线程数)。通过本文的学习,你可以将多任务思想应用到各类批量处理场景(如数据采集、文件转换、接口测试),大幅提升工作效率。如果需要进一步优化(如分布式爬虫、异步爬虫),可以关注后续进阶内容!

2025-11-18 13:27:56 1642

原创 Python 爬虫进阶:数据持久化 + 多任务并行(含 Excel 实操 + 进程线程深度解析)

Python 凭借简洁语法与丰富生态,成为爬虫开发的首选语言。在实际爬虫项目中,除了「抓取数据」,「高效保存数据」和「提升爬取效率」是两大核心需求。本文将从数据保存方案选型Excel 高级操作实战进程与线程原理多任务爬虫实现四个维度,结合豆瓣 Top250 爬取、考勤统计等真实案例,带你系统掌握爬虫进阶技能,同时拓展自动化办公场景应用。数据保存:掌握 Excel(openpyxl)、数据库、普通文件的选型与实操;多任务编程:理解进程与线程的区别,能用多进程 / 多线程提升爬虫效率;实战能力。

2025-11-16 23:46:50 2706 1

原创 BeautifulSoup4 数据提取完全指南

BeautifulSoup4(简称 bs4,中文常译为 "靓汤")是 Python 中一款强大的 HTML/XML 解析工具,能够帮助我们高效地从网页中提取和过滤所需内容。它将复杂的 HTML 文档转换为树形结构,使开发者可以轻松遍历和搜索节点。

2025-10-14 18:57:05 773

原创 XPath 数据提取:从原理到实战的全方位指南

HTML 负责 “展示”,XML 负责 “存储”,XPath 则是打通两者数据提取的通用工具。

2025-10-13 19:13:14 877

原创 Requests 案例与浏览器数据抓包全解析

在网络数据获取与分析中,抓包技术和 Requests 库的使用是必备技能。本文将详细介绍浏览器抓包的方法以及 Requests 库的实战案例,帮助你轻松获取网页数据。

2025-10-12 22:15:52 401

原创 Requests 与正则:从基础爬虫到数据提取

当我们用简单爬虫爬取百度首页时,常常只能获取到页面的基本 HTML 框架,却看不到新闻、壁纸等内容。百度首页的新闻、壁纸等内容就是动态加载的,普通爬虫只能获取静态 HTML,无法执行 JavaScript 获取后续数据。解决办法:在 PyCharm 右下角确认当前使用的 Python 环境,使用对应环境的 pip 安装模块。正则表达式是一种按照规则从字符串中提取信息的工具,核心要素是 "原始数据" 和 "筛选规则"。:电脑中存在多个 Python 版本时,模块可能安装到了非当前使用的版本。

2025-10-11 16:11:07 1019 1

原创 爬虫入门:从生活逻辑理解数据获取的底层逻辑

下期我们继续学习requests与正则哦。

2025-10-10 22:29:22 1288

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除