手把手教你爬虫简单例子——持续爬数据关注回形针粉丝变化

本文介绍了如何使用Python爬虫获取B站UP主回形针的粉丝数据,通过访问API接口获取JSON数据并解析。随着回形针账号被封,文章提及爬取其他UP主数据的方法,强调合法使用爬虫的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写在前面

回形针何许人也?这里只引用B站很多大V的精准评价——“狗粮养的”。通过不断创作科普类视频暗藏私货而争取来自美国 NGO 的狗粮。

再次强调,以上内容纯属引用。

爬虫数据来源

为了简单,首先需要找到接口地址,然后访问这个地址就可以得到 json 数据,再简单解析一下就好了。

找接口地址方法也比较简单,但是需要一些耐心,主要步骤如下:

  • 访问主页:https://space.bilibili.com/258150656?from=search&seid=3765479080204689527
  • 鼠标右键,选择检查,找到 Network
    在这里插入图片描述
  • 如图所示,接口文件就在箭头所指的内容中,去除一些 css js 文件后,慢慢就可以找到接口。如下图所示。
    在这里插入图片描述
    找到的连接地址如下:
    https://api.bilibili.com/x/relation/stat?vmid=258150656&jsonp=jsonp

可以直接浏览器访问,如果安装了 json 插件,看起来更舒服一些。

在这里插入图片描述

python 代码

已经知道接口了,那么爬虫就非常非常简单了。3分钟自己想一下。

import requests
import json

def get_page(url):    #解析网页
    headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'
    }
    try:
        r=requests.get(url,headers=headers)
#         print(r.json())
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.json()
    except Exception as e:
        print("error",e)
        return "ERROR"

url='https://api.bilibili.com/x/relation/stat?vmid=258150656&jsonp=jsonp'
cases_json=get_page(url)

print('粉丝数目为:',cases_json['data']['follower'])

截止 2021.6.28 18:26 输出结果为:

粉丝数目为: 3082027

截止 2021.7.8 18:43 输出结果为:

粉丝数目为: 3057480

额额额 由于回形针被封号了,全网封号(总算封了),虽然还可以继续爬取他的数据了,但已经没有任何意义了。

可以考虑爬取其他人的数据,方法同样简单,额额额,别干坏事就行。

方法比较简单,需要修改上面提到的链接
https://api.bilibili.com/x/relation/stat?vmid=258150656&jsonp=jsonp 更改其中的 vmid 即可。

定时采集数据

这方面内容与之前说过的一样,请参考 爬虫读取疫情数据,可根据兴趣进行调整,并邮件形式每天定时发送

感谢您的阅读!如有疑问请留言。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值