Python爬虫分析——B站UP主视频数据分析

最新推荐文章于 2024-10-12 23:07:59 发布

原创最新推荐文章于 2024-10-12 23:07:59 发布 · 1.2w 阅读

53 ·

CC 4.0 BY-SA版权

文章标签：

#B站UP主视频分析 #数据分析 #Python #json

PYTHON 专栏收录该内容

12 篇文章

订阅专栏

背景

一个朋友的要求，对B站UP主的视频进行分析。至于要做什么，你懂的。

核心

使用B站提供的API，爬取数据，进行分析。具体B站提供的API就不说了，https://www.bilibili.com/read/cv3430609/，自己看去。

获取UP主的视频列表

使用getSubmitVideos。具体的格式为如下：

https://space.bilibili.com/ajax/member/getSubmitVideos?mid=xxx&page=x

其中：

1、mid表示UP主的UID（每个UP主都有自己的ID）。

2、page表示第几页。B站每页返回最多20个条信息。

样例数据

B站回传的数据是Json格式的。下面是某个UP主的部分信息样例数据，其中关键数据删除。

{
  "status":true,
  "data":{
    "tlist":{
      "36":{
        "tid":36,
        "count":36,
        "name":"      "}},
    "vlist":[{
      "comment":2,
      "typeid":39,
      "play":330,
      "pic":"fb405e9d76dd7268.jpg",
      "subtitle":"",
      "description":"xxxxxx",
      "copyright":"",
      "title":"xxxxxxxxxxx",
      "review":0,
      "author":"xxxxxxxxxx",
      "mid":    ,
      "is_union_video":0,
      "created":1584302350,
      "length":"38:59",
      "video_review":1,
      "is_pay":0,
      "favorites":1,
      "aid":964xxxxx5,
      "is_steins_gate":0,
      "hide_click":false},],
    "count":36,
    "pages":2}
}

配合B站对应的WEB页面可以猜测出部分数据的内容。

关键字	含义	备注
comment	视频评论数量
typeid	视频隶属的区
play	视频的播放数量
pic	封面图片
subtitle	子标题	不确定
description	描述	UTF-8转码后信息
copyright	版权	不确定
title	视频的名字	UTF-8转码后信息
review		不知道
author	作者	UTF-8转码后信息
mid	UP主的UID
is_union_video		不知道
created	上传时间
length	视频长度
video_review		不知道
is_pay	收费	不确定
favorites	收藏
aid	视频的ID
is_steins_gate		不知道
hide_click		不知道