- 博客(5)
- 收藏
- 关注

原创 基于Drissionpage和ddddocr库在自动化爬虫中的实际应用(包含少量数据处理和可视化步骤,比较综合)
本项目是一个自动化采集携程网站酒店数据并进行数据分析的系统。主要包含数据采集和数据可视化分析两个主要模块。项目特点自动化程度高:从登录到数据采集全流程自动化反爬虫处理:包含验证码识别、随机延时等机制数据完整性:通过多次滚动确保数据采集完整可视化分析:多维度展示数据特征和关系注意事项需要配置正确的数据库连接信息需要处理网络异常和验证码失败的情况数据采集时需要注意控制频率,避免被封禁分析时注意处理异常值和缺失值输出文件hotels.csv:原始数据文件多个.png文件:数据可视化图表。
2025-05-25 21:15:17
919

原创 关于微博热搜爬取(此爬虫旨在获取大量用户信息,字段包含,ip,账号创建时间,粉丝数,视频点赞量等,mysql保存)
概述:由于微博热搜页面是动态加载,每次请求可以获取10篇左右的文章,作者首先获取文章详情页信息,再通过抓取参与评论的用户,对筛选到的id和评论进行去重,避免用户对应错误id。详情页面的信息也是动态加载如果使用selenium,或者DrissionPage自动化库需要多次下拉点击才能显示少量数据所以此时自动化效率极低,"max_id":前一个数据包中提取",注意第一个数据包中不需要该参数。希望大家可以互相学习,学习编程是一条漫长的道路,静下心,一步一个脚印才能真正学到知识。热搜文章详情页面的uid。
2025-03-07 18:39:22
1235
原创 新闻媒体智能采集与分析系统(基于pyqt5实现的gui界面)
本文介绍了一个新闻媒体智能采集与分析系统,系统分为爬虫采集和GUI展示两大模块。爬虫模块支持多类别新闻自动采集、数据清洗和存储,采用MySQL数据库管理。GUI模块提供用户登录、新闻浏览、搜索功能,并集成了数据分析可视化工具和基于用户行为的个性化推荐系统。系统采用Python技术栈,包括PyQt5、requests、pandas等库,实现了自动化采集、智能推荐和多线程处理。数据库设计包含新闻表和用户行为表,系统具有自动化、用户友好、性能优化等特点,提供完整的新闻采集到分析全流程解决方案。
2025-05-25 21:28:54
808
原创 URL参数分析工具(源代码文章底部,使用tkinter轻量级ui库,配置容易,有任何问题评论区解答,大可不必细看开发文档,直接拿去用,能省不少看参数变化的时间)
URL参数分析工具
2025-03-08 22:25:53
1756
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人