- 博客(3)
- 收藏
- 关注
原创 web自动化B站评论爬虫
使用的第三方库:drissionpage(官方文档:💥 4.1 功能介绍 | DrissionPage官网)、pandas、openpyxl使用的编程环境:PyCharm使用的浏览器:chrome思路:通过监听接口来获取存放评论相关的数据包,再提取出所需要的数据,最后保存到xlsx文件内。与上篇相似,本文还是通过web自动化技术的监听接口的方式来进行爬虫。既然要监听接口,那我们就要确定哪个接口存放我们想要的数据。
2025-02-17 20:44:36
760
原创 web自动化微博评论爬虫
使用的编程环境:PyCharm使用的浏览器:chrome思路:通过监听接口来获取存放评论相关的数据包,再提取出所需要的数据,最后保存到xlsx文件内。本文将介绍如何使用web自动化技术应用于爬虫。至于使用web自动化技术爬虫的原因,现在我们请deepseek为我们解释:使用Web自动化技术进行爬虫,主要是为了应对一些复杂的网页情况。简单来说,有些网页的内容不是直接加载的,而是通过用户操作(比如点击按钮、滚动页面)或JavaScript代码动态生成的。传统的爬虫工具无法直接获取这些动态内容。
2025-02-16 14:31:50
1230
2
原创 Python微博动态爬虫
本文是刘金路的《语言数据获取与分析基础》第十一章的扩展,详细解释了如何利用Python进行微博爬虫,爬虫内容包括微博指定帖子的一级评论、评论时间、用户名、id、地区、点赞数。
2024-11-28 12:02:34
4195
8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人