Python爬虫基础
文章平均质量分 95
在当今数字化信息爆炸的时代,数据已然成为一座蕴藏无尽价值的宝藏。本 “Python 爬虫” 专栏,将带你深入探秘数据抓取的奇妙世界。无论你是初涉编程的新手小白,渴望开启挖掘网络数据的大门;还是已有一定基础,意图精进爬虫技术,提升数据获取效率,这里都有你所需。我们会从 Python 爬虫的基础原理讲起
ningmengjing_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
六、自动化测试框架
爬虫自动化框架selenium与drissionpage原创 2025-03-07 04:26:26 · 840 阅读 · 0 评论 -
五、并发爬虫
并发爬虫实例原创 2025-03-05 01:35:44 · 2528 阅读 · 0 评论 -
多任务——协程
Python协程编程指南 协程是Python异步编程的核心技术,通过async/await语法提供了一种比传统回调更优雅的解决方案。本文详细介绍了协程的工作原理、优势、使用场景及高级用法。 核心要点: 协程通过非阻塞机制解决I/O操作时的线程阻塞问题,实现单线程高并发 使用asyncio库创建事件循环,通过async定义协程,await挂起执行 协程在Web服务、数据库交互等I/O密集型场景性能显著优于同步编程 结合Task对象实现并发执行,通过回调或直接获取结果 可与线程池/进程池混合使用处理不支持协程的原创 2025-06-08 02:52:26 · 1432 阅读 · 0 评论 -
多任务——进程
摘要:Python多进程编程通过multiprocessing模块实现并行计算,克服了GIL限制。进程拥有独立内存空间,适合CPU密集型任务,但创建开销较大且需通过Queue/Pipe等机制通信。关键点包括:1) Process类创建进程;2)进程池Pool提高管理效率;3)进程通信方式对比(队列优于共享内存);4)进程与线程的差异(隔离性vs轻量级)。典型应用模式如生产者-消费者需使用JoinableQueue同步。实际开发应根据任务类型(计算密集/I/O密集)合理选择并发方案,平衡性能与复杂度。原创 2025-06-01 19:23:32 · 1276 阅读 · 0 评论 -
多任务——线程
每个线程默认有一个名字,尽管上面的例子中没有指定线程对象的name,但是python会自动为线程指定一个名字。当线程的run()方法结束时该线程完成。无法控制线程调度程序,但可以通过别的方式来影响线程调度的方式。确保了某段关键代码只能由一个线程从头到尾完整地执行阻止了多线程并发执行,包含锁的某段代码实际上只能以单线程模式执行,效率就大大地下降了由于可以存在多个锁,不同的线程有不同的锁,并试图获取对方持有的锁时,可能会造成死锁。Python的QueueFIFOQueueLIFO。原创 2025-03-06 15:11:44 · 1380 阅读 · 0 评论 -
四、数据存储
爬虫的数据存储方法,以及一些案例原创 2025-03-03 01:55:35 · 1039 阅读 · 0 评论 -
数据库——MongoDB
MongoDB基础操作指南 MongoDB是一款开源NoSQL数据库,采用文档导向存储(BSON格式),具有灵活的数据模型和强大的查询能力。相比传统SQL数据库,MongoDB更适合快速迭代开发、处理非结构化数据和高流量应用场景。本文介绍了MongoDB的核心概念和基本操作,包括数据库/集合管理、文档操作(增删改查)、查询条件和逻辑运算等。还提供了pymongo库的Python操作示例,包括连接数据库、文档插入、查询、更新和删除等常用操作。MongoDB 4.0+版本已支持多文档事务,但在复杂事务场景下仍需原创 2025-06-10 22:38:55 · 1061 阅读 · 0 评论 -
数据库——redis
内存存储架构:数据主要存储在内存中,提供微秒级的读写响应多数据结构支持基础类型:字符串(Strings)集合类型:列表(Lists)、集合(Sets)、有序集合(Sorted Sets)复合类型:哈希表(Hashes)特殊类型:位图(Bitmaps)、超日志(HyperLogLogs)空间数据:地理空间索引(Geospatial)多功能应用高性能数据库分布式缓存系统消息中间件实时数据处理平台。原创 2025-06-09 00:32:08 · 1614 阅读 · 0 评论 -
三、数据提取
爬虫的几种数据提取方式原创 2025-03-02 09:43:46 · 1044 阅读 · 0 评论 -
二、requests模块的使用
作用:发送网络请求,返回响应数据。对于爬虫任务,使用 requests 模块基本能够解决绝大部分的数据抓取的任务。所以用好 requests 至关重要。原创 2025-02-25 00:59:00 · 1825 阅读 · 0 评论 -
一、初始爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地爬取互联网信息的程序。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。1.2 如何获取爬虫程序下载其他公司开发的通用爬虫(八爪鱼)开发人员自己编写。原创 2025-02-23 22:59:33 · 1616 阅读 · 0 评论
分享