自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 web自动化B站评论爬虫

使用的第三方库:drissionpage(官方文档:💥 4.1 功能介绍 | DrissionPage官网)、pandas、openpyxl使用的编程环境:PyCharm使用的浏览器:chrome思路:通过监听接口来获取存放评论相关的数据包,再提取出所需要的数据,最后保存到xlsx文件内。与上篇相似,本文还是通过web自动化技术的监听接口的方式来进行爬虫。既然要监听接口,那我们就要确定哪个接口存放我们想要的数据。

2025-02-17 20:44:36 760

原创 web自动化微博评论爬虫

使用的编程环境:PyCharm使用的浏览器:chrome思路:通过监听接口来获取存放评论相关的数据包,再提取出所需要的数据,最后保存到xlsx文件内。本文将介绍如何使用web自动化技术应用于爬虫。至于使用web自动化技术爬虫的原因,现在我们请deepseek为我们解释:使用Web自动化技术进行爬虫,主要是为了应对一些复杂的网页情况。简单来说,有些网页的内容不是直接加载的,而是通过用户操作(比如点击按钮、滚动页面)或JavaScript代码动态生成的。传统的爬虫工具无法直接获取这些动态内容。

2025-02-16 14:31:50 1230 2

原创 Python微博动态爬虫

本文是刘金路的《语言数据获取与分析基础》第十一章的扩展,详细解释了如何利用Python进行微博爬虫,爬虫内容包括微博指定帖子的一级评论、评论时间、用户名、id、地区、点赞数。

2024-11-28 12:02:34 4195 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除