Python动态爬取优快云博客信息

本文介绍了使用Python和Selenium动态爬取优快云博客信息的过程,包括网页分析、功能实现、准备工作(Selenium库安装与WebDriver配置)、获取网页内容、输出结果、程序封包为exe及注意事项。作者在实践中遇到静态爬取无法获取点赞和收藏数的问题,转而采用动态爬取,并分享了解决封包后运行错误的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

大三上刚接触python,在最后的学期实训中老师想让我们在博客园上写一篇有关于爬虫的博客(说是方便爬取每篇博客的信息),但是个人属实不喜欢博客园的界面,于是在优快云上编写了博客然后爬取自己博客的信息。

网页分析

以我之前写的实训博客为例,首先我们在网页上F12通过观察网页,博客名称、浏览量、点赞数、评论数、收藏数都可以很方便的找到对应标签,于是乎我就先用静态的方法爬取。

import requests
import re
url='https://blog.youkuaiyun.com/qq_45279235/article/details/111696618'
headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}
html=requests.get(url,headers=headers)
#点赞数量
spancount=re.findall(r'<span id="spanCount" class="count" style>(.*?)</span>',html.text)
print(spancount)

但是静态爬取点赞数量和收藏数量出来的结果是空值(只展示了一部分代码),并且评论的标签爬出来的结果并不唯一。
在这里插入图片描述
所以我就把静态爬取网页的请求结果text输出出来,结果没有找到对应的标签和数据,只好就改成动态爬取。

功能实现

准备工作

1.安装Selenium库。
如果网速过慢安装失败的话使用镜像源下载

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

如果提示WARNING: You are using pip version 20.2.1; however, version X.X.X is available 使用镜像源更新pip

python -m pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple

2.下载对应的webdriver驱动
浏览器设置里面可以找到你的版本
在这里插入图片描述
这里找到对应的驱动器,下载之后放到python的文件夹中

获取网页

通过驱动打开目标博客的网页

import requests
import re
from sele
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值