guidovans-优快云博客

原创基于Drissionpage和ddddocr库在自动化爬虫中的实际应用(包含少量数据处理和可视化步骤，比较综合)

本项目是一个自动化采集携程网站酒店数据并进行数据分析的系统。主要包含数据采集和数据可视化分析两个主要模块。项目特点自动化程度高：从登录到数据采集全流程自动化反爬虫处理：包含验证码识别、随机延时等机制数据完整性：通过多次滚动确保数据采集完整可视化分析：多维度展示数据特征和关系注意事项需要配置正确的数据库连接信息需要处理网络异常和验证码失败的情况数据采集时需要注意控制频率，避免被封禁分析时注意处理异常值和缺失值输出文件hotels.csv：原始数据文件多个.png文件：数据可视化图表。

2025-05-25 21:15:17 919

原创关于微博热搜爬取（此爬虫旨在获取大量用户信息，字段包含，ip，账号创建时间，粉丝数，视频点赞量等，mysql保存）

概述：由于微博热搜页面是动态加载，每次请求可以获取10篇左右的文章，作者首先获取文章详情页信息，再通过抓取参与评论的用户，对筛选到的id和评论进行去重，避免用户对应错误id。详情页面的信息也是动态加载如果使用selenium，或者DrissionPage自动化库需要多次下拉点击才能显示少量数据所以此时自动化效率极低，＂max_id＂：前一个数据包中提取＂，注意第一个数据包中不需要该参数。希望大家可以互相学习，学习编程是一条漫长的道路，静下心，一步一个脚印才能真正学到知识。热搜文章详情页面的uid。

2025-03-07 18:39:22 1235