简单练手:B站前100爬取

本文介绍了一种使用Python爬虫技术抓取Bilibili网站排行榜数据的方法,通过解析网页源代码,利用正则表达式提取排名、标题、作者和得分等关键信息,并将数据保存为Excel文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import requests
import xlwt
import re

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
            'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}

def getHtml(url):
    try:
        r = requests.get(url,headers = headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return None

def get_info(html,mylist):
    ranks = re.findall('<div class="num">(\d*)</div><div class="content">',html,re.S)
    names = re.findall('target="_blank" class="title">(.*?)</a><!----><div class="detail">',html,re.S)
    auctors = re.findall('<i class="b-icon author"></i>(.*?)</span></a>',html,re.S)
    scores = re.findall('div class="pts"><div>(\d+)</div>综合得分',html,re.S)
    for rank,name,auctor,score in zip(ranks,names,auctors,scores):
        temp = [rank,name,auctor,score]
        mylist.append(temp)

def writeExel(mylist):
    header = ['排名','标题','作者','得分']
    book = xlwt.Workbook(encoding='UTF-8')
    sheet = book.add_sheet('Sheet1')
    for k in range(len(header)):
        sheet.write(0,k,header[k])
    i = 1
    for part in mylist:
        j = 0
        for what in part:
            sheet.write(i,j,what)
            j += 1
        i += 1
    book.save('D:/bilibiliTop100.xls')

if __name__ == '__main__':
    mylist = []
    url = 'https://www.bilibili.com/ranking?'
    html = getHtml(url)
    get_info(html,mylist)
    writeExel(mylist)
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值