【Python3】爬取B站视频相关信息(转载)

【注意】代码转自https://www.52pojie.cn/thread-627008-1-1.html
因为担心原作者网页丢失,所以进行了转移,且有小细节修改

【B站API合集】https://www.bilibili.com/read/cv3430609/

浏览器输入http://api.bilibili.com/archive_stat/stat?aid=10086&type=jsonp回车获取数据为:{“code”:0,“message”:“0”,“ttl”:1,“data”:{“aid”:10086,“view”:590157,“danmaku”:7545,“reply”:4279,“favorite”:7477,“coin”:1123,“share”:1329,“now_rank”:0,“his_rank”:97,“like”:7715,“dislike”:0,“no_reprint”:0,“copyright”:2}}

具体含义分析见转载网页和API网页就好~
下面直接搬运代码

import time
import requests
from prettytable import PrettyTable
import importlib,sys


importlib.reload(sys)

def get_craw_num():
    print('-------菜单-------')
    i = int(input('请输入要爬取视频的av号:'))
    print('------------------')
    return i

def start_craw(url):
    print('开始爬取……')
    headers = {}
    x = PrettyTable(['视频编号', '播放量', '弹幕', '回复', '收藏', '硬币', '分享'])
    t = 0
    i = get_craw_num()
    while (t < 100):
        r = requests.get(url.format(i), headers=headers)
        #print(url.format(i))
        if r.status_code == 200:
            try:
                j = r.json()['data']
                favorite = j['favorite']
                danmaku = j['danmaku']
                coin = j['coin']
                view = j['view']
                share = j['share']
                reply = j['reply']
                favorite = str(favorite)
                danmaku = str(danmaku)
                coin = str(coin)
                view = str(view)
                share = str(share)
                reply = str(reply)
                av_num = "av" + str(i)
                x.add_row([av_num, view, danmaku, reply, favorite, coin, share])
            except Exception as e:
                pass
        else:
            break
        i = i + 1
        t = t + 1
    print(x)
    print('爬取完成')

if __name__ == '__main__':
    url = 'http://api.bilibili.com/archive_stat/stat?aid={}&type=jsonp'
    start_craw(url)
<think> 我们之前讨论了图片爬虫,现在用户询问关于爬取哔哩哔哩网页端视频的问题。根据引用内容,我们知道可以通过Python爬虫爬取B视频,但需要注意反爬措施和视频源的获取方式。 我将按照以下步骤回答: 1. 明确回答爬虫可以爬取B视频 2. 解释技术原理(基于引用中提到的requests库) 3. 提供基本实现思路和关键代码片段 4. 强调法律和版权注意事项 5. 生成相关问题 特别注意:B视频有版权保护,爬取仅用于学习目的,禁止商业用途和恶意传播。 实现思路: - 获取视频页面HTML - 解析视频数据(可能涉及m3u8格式或mp4直链) - 处理反爬机制(headers、cookies等) - 下载并合并视频片段(如有必要) 由于B视频可能采用分片(m3u8)或直接mp4链接,代码需要区分处理。 </think> 是的,爬虫可以爬取哔哩哔哩网页端视频,但需要注意技术实现和法律合规性。以下是关键要点: ### 一、B视频爬取技术原理 1. **视频源解析** B视频采用分段传输(m3u8格式),爬虫需要: - 解析视频页面获取m3u8索引文件地址 - 提取.ts格式的分片视频链接 ```python # 伪代码示例 def parse_m3u8(m3u8_url): response = requests.get(m3u8_url) ts_list = re.findall(r&#39;(.*?\.ts)&#39;, response.text) # 提取所有分片 return [urljoin(m3u8_url, ts) for ts in ts_list] ``` 2. **反爬机制应对** B采用严格防护措施: - 必须携带`Referer`头(来源页面) - 需要`User-Agent`模拟浏览器 - 关键接口需`cookies`验证(如SESSDATA) ```python headers = { &#39;User-Agent&#39;: &#39;Mozilla/5.0&#39;, &#39;Referer&#39;: &#39;https://www.bilibili.com/video/BV1xx411c7BF&#39; } ``` 3. **视频合并处理** 下载所有分片后需合并为完整视频: ```python with open(&#39;output.mp4&#39;, &#39;wb&#39;) as f: for ts_url in ts_list: f.write(requests.get(ts_url).content) ``` ### 二、完整爬取流程 ```python import requests import re from urllib.parse import urljoin def download_bilibili_video(bvid): # 1. 获取页面源码 url = f"https://www.bilibili.com/video/{bvid}" html = requests.get(url, headers=headers).text # 2. 提取m3u8地址 (需实际解析JS变量) m3u8_url = re.search(r&#39;"baseUrl":"(.*?m3u8)"&#39;, html).group(1) # 3. 获取分片列表 ts_list = parse_m3u8(m3u8_url) # 4. 下载并合并 for i, ts_url in enumerate(ts_list): print(f"下载进度: {i+1}/{len(ts_list)}") with open(f"{bvid}.mp4", &#39;ab&#39;) as f: # 追加写入 f.write(requests.get(ts_url, headers=headers).content) # 示例调用(需补充headers和cookies) download_bilibili_video("BV1GJ411x7h7") ``` ### 三、法律与伦理边界 1. **版权限制** - 仅爬取UP主声明允许转载视频 - 禁止商业用途和个人传播 - 遵守《信息网络传播权保护条例》 2. **技术限制** - B接口变更频繁(需持续维护) - 1080P以上画质需大会员权限 - 高频请求触发验证码(需控制频率)[^1][^2] > 建议:优先使用B官方API(需申请权限),或仅用于个人学习研究。2023年B新增`fnval=4048`协议加密,爬取难度显著增加。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值