Python爬取哔哩哔哩视频信息

爬取哔哩哔哩视频信息

步骤:因为哔哩哔哩时动态网页,所以需要爬取精确的url之后,在进行信息的爬取,将信息存放到csv文件中

1. 爬取更准确的url
# 提取正确的url
def professional_link(url,type):
    headers = {
   
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3754.400 QQBrowser/10.5.4020.400"
    }
    response = requests.get(url, headers=headers).content.decode('utf-8')
    # 利用正则提取动态网页的url部分内容
    links = re.findall(r'<li class="video-item matrix".*?>.*?<a href="//www.bilibili.com/video/(.*?)?from.*?" title.*?>.*?</a>.*?</li>',response, re.DOTALL)
    for link in links:
        links_new = re.sub('\?', '', link)
        links_news = 'https://www.bilibili.com/video/' + links_new
        professional(links_new, headers,type)
2. 通过url提取视频信息,包括题目,点赞量,硬币数,作者id等
# 提取视频信息,包括标题,点赞量,赞等
def professional(link, headers,type):
    url = "https://api.bilibili.com/x/web-interface/view?&bvid="+link
    response = requests.get(url, headers).content.decode('utf-8')
    content = json.loads(response)
    # 利用json提取视频信息
    title = content['data'
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值