JAVA爬虫(二):哔哩哔哩动画搞笑排行榜爬取

本文记录了使用JAVA爬虫抓取哔哩哔哩动画搞笑排行榜的过程,包括分析网页结构、获取JSON数据以及解析数据的步骤。通过分析网页源代码,发现视频信息存储在JSON格式的region文件中,通过调整页数和日期参数来请求不同页面的数据。最终通过getJSONArray和getString方法解析JSON,实现数据的提取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 前言

最近和大创队友一起给大创做的APP增添了新功能,新功能中需要用到爬取豆瓣、QQ音乐、哔哩哔哩等网站。所以写下博客记录这一过程,也算是和大家分享一些经验。

2. 步骤

2.1 分析及网页源代码爬取

2.1.1 分析

打开哔哩哔哩动画网站,查看鬼畜视频排行榜对应网页。再用谷歌开发者工具进行分析。发现每一个视频信息存储以json格式存储在一个叫region的文件里,如下图所示:
在这里插入图片描述
然后点击Headers,查看相应网页url地址以及获取方式。经过多次尝试发现,url有两个参数需要改变:一个是当前页数,另一个是当前日期。而相应获取方式是requests的get方法,同时我们可以看见关于host,user-agent参数的说明。参见下图:
在这里插入图片描述

2.1.2网页源代码爬取

由上文我们已经知道了爬取此源代码的方法,那我们可以开始爬取啦!片段代码如下:

// 以下两个参数是url中需要改变的参数
        int num = 1;  // 当前页数
        SimpleDateFormat dateFormat = new SimpleDateFormat("yyyyMMdd");
        String currentDate = dateFormat.format(new Date());  // 当前日期
// 循环用于爬取所有页面
        for (num = 1; num < 10; num++) {
   
   
            String video_url =
                    "https://s.search.bilibili.com/cate/search?main_ver=v3&search_type=video&view_type=hot_rank&order=click&copy_right=-1&cate_id=22&page=" + String.valueOf(num) + "&pagesize=20&jsonp=jsonp&time_from=20190224&time_to=" + currentDate;
            get_json(video_url, new 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值