- 博客(22)
- 收藏
- 关注
原创 Python爬虫数据持久化:文件、Excel、JSON与CSV详解
本文详细介绍了Python爬虫数据持久化的四种常用方法:文件、Excel、JSON和CSV。文件操作适合简单数据存储,支持文本和二进制格式;Excel(openpyxl库)适用于复杂表格数据,支持工作簿、工作表和单元格操作;JSON适合结构化数据存储,便于序列化和反序列化,尤其适合Web应用;CSV则提供轻量级的表格存储,兼容性强。文章通过代码示例展示了每种方法的读写操作,并分析了不同场景下的适用性,帮助开发者根据数据特点选择合适的持久化方案,提升爬虫数据的存储效率和可维护性。
2025-04-01 17:05:29
273
原创 【JS逆向实战】————基于JSRPC技术(详细)实现JS逆向
JSRPC是一种远程调用 JavaScript 代码的技术思想,而非一种固定的规范或协议。它允许开发者在浏览器环境下直接调用 JavaScript 加密或解密函数,从而避免了在本地使用 Node.js 执行 JavaScript 时可能出现的各种问题,如环境缺失等。通过 JSRPC,Python 开发者可以轻松地与浏览器环境进行交互,实现对 JavaScript 代码的远程调用,进而完成逆向任务。
2025-04-01 16:57:55
932
原创 Selenium从入门到进阶:全面掌握Web自动化测试与数据采集
Selenium是一个强大的Web自动化测试工具,最初是为网站自动化测试而开发的。它能够模拟真实用户操作浏览器,支持多种主流浏览器包括Chrome、Firefox、Safari等。随着技术的发展,Selenium也被广泛应用于网络数据采集领域,特别是针对动态网页的数据抓取。Selenium作为强大的浏览器自动化工具,不仅适用于Web测试,也是处理动态网页数据采集的利器。从基础的元素定位到高级的浏览器控制,Selenium提供了完整的解决方案。
2025-03-27 16:24:37
1113
原创 【python大作业/爬虫实战】——基于vivo的手机数据采集+可视化+情感分析(附完整代码)
采集vivo官网所有手机型号的基本信息(商品名称、价格、型号等)采集各型号手机的用户评论数据对采集的数据进行清洗和处理进行可视化分析,发现产品特点和用户偏好对评论数据进行情感分析,了解用户满意度。
2025-03-27 16:08:38
1341
2
原创 Requests高级使用指南:状态保持、会话管理与异常处理
在现代网络爬虫和API交互中,简单的GET/POST请求往往不能满足需求。本文将深入探讨Python requests库的高级特性,包括状态保持、会话管理以及常见异常处理,帮助你更好地模拟浏览器行为,完成复杂的网页采集任务。
2025-03-24 19:12:11
346
原创 【python大作业/爬虫实战】——基于Python的链家二手房数据采集+可视化(附完整代码)
在房地产数据分析和研究中,获取真实的二手房市场数据是非常有价值的。本文将介绍如何使用Python爬虫技术从链家网获取广州市二手房数据,并进行可视化分析。
2025-03-24 19:05:28
1507
原创 【python大作业/爬虫实战】——基于Python的国内景区采集+可视化(附完整代码)
随着旅游业的蓬勃发展,景区信息成为了旅游爱好者、旅游从业者以及相关研究人员极为关注的内容。从游客角度出发,了解各个景区的名称、所在地区、等级以及详情页链接等基础信息,能够帮助他们更好地规划旅游行程,选择心仪的旅游目的地。对于旅游从业者而言,这些数据有助于他们进行市场调研,分析不同地区、不同等级景区的分布情况和受欢迎程度,从而制定更精准的旅游产品推广策略。同时,研究人员也可以利用这些数据来研究旅游产业的区域发展差异、景区等级评定对旅游市场的影响等诸多问题。
2025-03-20 11:08:28
1248
原创 【JS逆向实战】——基于全国建筑市场监管公共服务平台的webpack
Webpack 是一个现代 JavaScript 应用程序的静态模块打包工具。它将应用程序的所有资源(如 JavaScript、CSS、图片等)视为模块,并通过依赖关系将它们打包成一个或多个文件。入口(Entry):指定 Webpack 开始构建依赖图的起点。输出(Output):指定打包后的文件输出位置和文件名。加载器(Loader):用于处理非 JavaScript 文件,将其转换为 Webpack 能够处理的模块。插件(Plugin):用于执行更广泛的任务,如打包优化、资源管理等。
2025-03-18 14:04:39
1347
原创 【python爬虫实战】——基于全国各城市快递网点的数据采集
随着电子商务的快速发展,快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息,本项目通过爬虫技术从公开的快递信息网站上采集相关数据。
2025-03-17 20:45:11
1278
原创 【python大作业】——基于王者荣耀交易数据采集+可视化(附完整代码)
随着移动游戏的普及,王者农药作为一款现象级手游,拥有庞大的用户群体。许多玩家在游戏中投入了大量时间和金钱,因此账号交易市场也逐渐兴起。为了更好地了解王者账号交易市场的动态,本项目通过爬虫技术采集相关数据,并进行后续的可视化分析。
2025-03-16 20:23:30
1313
原创 【python爬虫实战】—— 猫眼专业版电影票房字体反扒
字体反爬是指网站使用自定义字体来渲染页面上的关键数据,使得爬虫无法直接获取正确的文本内容。通常,这些字体文件会动态生成,并且每个字符的映射关系也会不断变化。因此,爬虫需要解析这些字体文件,才能正确获取页面上的数据。
2025-03-12 18:17:07
2338
1
原创 【python大作业/爬虫实战】——基于Python的《哪吒2》豆瓣评论数据采集+可视化(附完整代码)
随着互联网的快速发展,电影评论成为了观众表达观影感受的重要途径。豆瓣作为中国最大的电影评分和评论平台之一,积累了大量的用户评论数据。这些数据不仅反映了观众对电影的评价,还可以通过数据分析挖掘出用户的观影习惯、地域分布、评分偏好等信息。本项目以电影《哪吒2》为例,通过爬虫技术采集豆瓣电影评论数据,并结合可视化工具对数据进行深入分析,旨在为电影制作方、市场营销人员以及普通观众提供有价值的参考。
2025-03-10 22:58:17
2336
19
原创 【python大作业/爬虫实战】——基于Python的水质数据采集+可视化(附完整代码)
本文介绍了如何使用Python进行水质数据的采集、存储与可视化分析。通过requests库从目标网站获取水质数据,并利用csv库将数据存储到本地文件中。借助pandas进行数据处理,结合matplotlib和seaborn库,实现了对水质数据的多维度可视化分析,包括不同海区的PH值分布、溶解氧含量、水质类别统计以及水质指标的相关性分析。
2025-03-07 16:31:38
2968
原创 【python爬虫实战】—— Reqable工具抓包使用教程
在网络爬虫、移动开发、API 调试、网络安全等领域,抓包工具是必不可少的利器。今天给大家推荐一款功能强大、操作简单的抓包工具——Reqable,并附上详细的下载和使用教程,助你轻松上手!
2025-03-06 22:09:42
1625
原创 【python大作业/爬虫实战】——爬取前程无忧(51job)数据+可视化(附完整代码)
在当今数字化时代,网络爬虫技术已成为数据获取的重要手段之一。本文将通过一个实际案例——采集51job招聘信息,详细介绍如何使用Python和Selenium框架实现数据采集。我们将从环境准备、网页结构分析、采集字段说明到爬虫实现步骤等方面展开,帮助读者快速掌握相关技术。
2025-03-05 14:28:23
2950
4
原创 【python爬虫实战】——爬取肯德基餐厅数据+可视化(附完整代码)
在数据分析和商业决策中,获取准确的餐厅位置信息是非常重要的。本文将介绍如何使用Python采集全国各地的肯德基餐厅数据,并将这些数据保存为CSV文件。我们将重点介绍爬虫的分析过程、采集的字段以及具体的实现步骤。
2025-03-03 19:08:33
1563
原创 【python爬虫实战】—— Selenium 接管已经打开的浏览器(附案例代码)
Selenium 接管已经打开的浏览器功能为自动化测试和浏览器自动化操作提供了更灵活的选择。通过对比可以看出,接管已打开的浏览器在调试效率和保留浏览器状态方面具有明显优势,但在需要隔离测试数据的场景下,直接使用 ChromeDriver 仍然是更好的选择。希望本文能够帮助你更好地理解和使用 Selenium 接管已经打开的浏览器功能,提升你的自动化测试效率!可以使用subprocess模块在 Python 脚本中自动启动 Chrome 浏览器并开启调试端口。
2025-03-02 20:01:21
1612
原创 【python爬虫实战】——采集2025年QS世界大学排名数据+可视化(附完整代码)
在当今信息爆炸的时代,数据已经成为我们决策的重要依据。对于教育行业来说,世界大学排名是学生、家长和教育机构关注的焦点之一。QS世界大学排名作为全球最具影响力的大学排名之一,每年都会发布最新的排名数据。本文将带你一步步实现一个爬虫程序,抓取2025年QS世界大学排名数据,并将其保存为CSV文件,方便后续分析和使用。
2025-02-25 16:22:58
2273
原创 【python爬虫实战】——爬取猫眼电影票房排行榜+可视化(附完整代码)
在当今数据驱动的时代,获取和分析电影票房数据对于电影行业从业者、数据分析师以及电影爱好者来说至关重要。本文将介绍如何使用Python编写一个简单的爬虫程序,从猫眼电影网站上爬取2011年至2025年的电影票房排行榜数据,并将数据保存到CSV文件中。
2025-02-23 14:55:22
2546
11
原创 【python爬虫实战】——自动化采集LOL(英雄联盟)英雄信息+可视化(附完整爬虫代码)
在本文中,我们将介绍如何使用Python和Selenium库来自动化采集《英雄联盟》(LOL)中所有英雄的详细信息,并将这些信息保存到CSV文件中。本文的代码不仅适用于LOL,还可以作为其他类似网页数据采集任务的参考。
2025-02-22 17:29:14
926
1
原创 【python爬虫实战】——爬取历史天气信息_天气数据数据+可视化(附完整代码)
通过Python爬虫,可以高效地采集公开的历史天气数据,然后将其应用于各种应用场景。比如气象研究、旅游的规划、辅助农业的决策等等。本文将详细介绍历史天气数据的抓取方法
2024-12-21 16:45:01
2280
6
原创 Python爬虫超详细基础知识:从请求到解析再到数据保存(附完整实战案例)
requests模块是一个网络请求模块,可以帮助我们模拟成客户端去请求服务器的数据。我们可以在浏览器中抓取到这些请求与响应的内容,那么我们可以“伪造”请求吗?也就是不再通过浏览器发送这些数据,而是通过Python来模拟浏览器发送请求。答案是可行的。而Requests模块就可以完成这种功能。还有其他库吗?回答也是肯定的,例如 urllib , urllib2 等模块。但是目前来说 Requests 模块是最流行的。而且也是做好用的模块。
2024-12-18 15:53:36
942
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人