爬虫抓取自己csdn博客点赞数

本文介绍了一种使用 Python 技术爬取 优快云 博客文章列表及其详细信息的方法,包括点赞数和浏览量等关键指标。通过结合 requests 和 Selenium 实现了从个人主页抓取所有文章链接,并进一步访问每篇文章获取具体数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

查看自己文章的点赞数、浏览量。。。

# 翻页,获取全部文章链接
import requests, re, math
url = 'https://me.youkuaiyun.com/yellow_python'
r = requests.get(url, headers={'User-Agent': 'Opera/8.0 (Windows NT 5.1; U; en)'}).text
articles = re.search('<span>(\d+)</span>\s+<a href="https://blog.youkuaiyun.com/yellow_python\?t=1" target="_blank"><strong>原创</strong></a>', r).group(1)
pages = int(math.ceil(int(articles) / 20))
article_urls = []
for page in range(1, pages + 1):
    page_url = 'https://blog.youkuaiyun.com/Yellow_python/article/list/%d' % page
    rp = requests.get(page_url, headers={'User-Agent': 'Opera/8.0 (Windows NT 5.1; U; en)'}).text
    article_urls.extend(re.findall('<h4 class="">\s+<a href="(https://blog.youkuaiyun.com/Yellow_python/article/details/\d+)" target="_blank">', rp))
print(len(article_urls), article_urls)
# 解析文章
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.firefox.options import Options  # 火狐浏览器设置
firefox_option = Options()
firefox_option.set_headless()  # 设置浏览器为【无头】
driver = webdriver.Firefox(firefox_options=firefox_option)
wait = WebDriverWait(driver, 9)  # 显式等待,设置timeout
for article_url in article_urls:
    driver.get(article_url)
    title = driver.find_element_by_css_selector('html body div#mainBox.container.clearfix main div.blog-content-box div.article-header-box div.article-header div.article-title-box h1.title-article').text
    approval = driver.find_element_by_css_selector('.long-height > p:nth-child(4)').text
    pv = driver.find_element_by_css_selector('.read-count').text
    print(approval, pv, title, article_url, sep=' | ')
driver.close()

注意:程序运行后,要清理关闭失败的无头浏览器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小基基o_O

您的鼓励是我创作的巨大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值