爬取一条微博的所有转发链接

最新推荐文章于 2025-02-28 15:45:42 发布

acsyl

最新推荐文章于 2025-02-28 15:45:42 发布

阅读量5.7k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： python学习之路文章标签： python 微博所有转发链接 cookie录入

本文链接：https://blog.youkuaiyun.com/acsyl/article/details/78189042

本文介绍如何使用Python爬取微博上根节点的第一层转发链接，旨在帮助朋友删除非法转发。首先安装必要库，然后分析网页并验证登录cookie，接着获取每个转发用户的id和文章号。代码中包含登录cookie存储、获取单个页面转发链接的功能，并提供main函数读取根文章号生成转发链接。附带详细说明文档和完整代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求分析

因朋友需求，需要删除在微博上的一些非法转发，故给出链接的根节点，只查询根节点的第一层节点，并删除第一层节点的所有转发。

本人python初学者，有什么写的不好的地方，请指出，与大家一起学习交流。
文章结尾附上完整代码，同时还有详细的说明文档，请自行下载。

前期准备
安装python3x
导入requests、bs4等必须的库

导入命令

pip install requests
pip install bs4

网页分析
需要在简易版微博上爬取
验证微博登录的cookie
爬取所有转发的人的id(每个人的id是固定的)和文章号(同一篇文章每个人会生成不同的文章号)

代码分析

登录cookie存储
打开网址：https://weibo.cn/pub
点击登录
打开调试工具，即按F12，同时调到Network
输入帐号密码点击登录
在调试工具中找到weibo.cn，复制cookie
获取单个页面的所有转发链接

def getComment(url,file):
    """
     获取单个链接页面中的转发连接
    :param url:评论页面链接
    :param file: 文件对象
    """
    try:
        html = requests.get(url, cookies=cook).content
        soup = BeautifulSoup(html, "html.parser")
        r = soup.findAll('div', attrs={
  
  "class": "c"})
        for e in r:
            size = 0
            name = ''
            uid = ''
            article = ''
            for item in e.find_all('a',href=re.compile("/u")):
                size = size + 1
                name = item.text
                uid = item.get('href').split("/")[2];
            for item in e.find_all('span',attrs={
  
  "class":"cc"}):
                size = size + 1
                str = item.find('a').get("href").split("/")
                article = str[2]
            if size == 2:
                link = 'https://weibo.com' + '/' + uid + '/' + article
                try