自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 【腾讯招聘】【页面分析小技巧】【爬虫工具库】爬虫/进程/队列Queue/mongodb/jsonpath

本文介绍了如何使用Python的多进程技术、网络请求与数据解析以及MongoDB存储来实现腾讯招聘信息的抓取与存储。首先,通过multiprocessing模块创建多个进程,每个进程独立抓取不同页面的数据,并使用JoinableQueue实现进程间通信,确保数据安全传递。其次,利用requests库发送带参数的HTTP请求,并通过jsonpath解析返回的JSON数据,提取岗位信息。最后,使用PyMongo将解析后的数据存储到MongoDB中。整个过程通过多进程并行处理,提高了数据抓取效率,并通过守护进程

2025-05-12 21:18:01 902

原创 Python线程池----豆瓣电影

线程池在高效并发请求处理中发挥核心作用,通过复用固定数量的线程(如max_workers=10),避免了频繁创建和销毁线程的开销,显著提升了爬虫的吞吐量。例如,在抓取1000个URL时,线程池可并行处理10个请求,理论耗时可降至单线程的1/10(忽略网络延迟)。此外,线程池通过限制最大并发数(如ThreadPoolExecutor(5)),防止因线程过多导致目标服务器封禁IP或本地内存/CPU过载。线程池还简化了任务管理,内置任务队列、异常捕获和结果回调机制,使开发者只需关注业务逻辑(如解析HTML)

2025-05-12 19:59:24 212

原创 python线程爬虫----豆瓣电影

在爬虫开发中,线程(Threading)是提升效率和性能的关键技术,尤其适用于I/O密集型任务如网络请求。本文以豆瓣电影Top250为例,展示了如何使用多线程技术进行数据抓取。首先,导入必要的模块(requests、threading、lxml),并分析目标网址的分页结构,通过动态调整start参数实现分页。接着,设置请求头模拟浏览器访问,并定义get_movie_info函数发送请求并解析数据。最后,使用多线程技术并发抓取前10页的电影信息,线程的乱序执行特点在结果中得以体现。完整代码展示了如何高效利用线

2025-05-12 19:41:37 433

原创 python异步爬虫---某车之家--aiomysql

本文介绍了一个基于Python的异步爬虫程序,用于从汽车之家网站爬取车辆详细信息。程序使用了asyncio框架进行异步编程,结合aiohttp发送HTTP请求,aiomysql进行异步数据库操作,lxml解析HTML页面,chardet检测网页编码,Redis进行数据去重,MySQL存储数据。爬虫通过分析网页结构,获取每辆车的specid,再通过API接口获取详细参数,并使用MD5哈希值进行去重处理。程序还处理了反爬机制,如设置User-Agent和编码处理。最终,数据被异步存储到MySQL数据库中

2025-05-11 23:52:18 1510

原创 解决Windows切换Python解释器,安装模块在指定解释器

在Windows中我们可能安装好几个版本的Python解释器来进行开发,切换Python解释器就成了一个比较常用的技能。(注意!!!!前两种方法我的解释器·并没有实际的切换,这个看各位的情况。

2024-07-29 11:36:19 898

一、新大陆物联网-httpHelp包

一、新大陆物联网-httpHelp包

2024-04-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除