JAVA爬虫(二): 哔哩哔哩动画搞笑视频排行榜爬取
1. 前言
最近和大创队友一起给大创做的APP增添了新功能,新功能中需要用到爬取豆瓣、QQ音乐、哔哩哔哩等网站。所以写下博客记录这一过程,也算是和大家分享一些经验。
2. 步骤
2.1 分析及网页源代码爬取
2.1.1 分析
打开哔哩哔哩动画网站,查看鬼畜视频排行榜对应网页。再用谷歌开发者工具进行分析。发现每一个视频信息存储以json格式存储在一个叫region的文件里,如下图所示:
然后点击Headers,查看相应网页url地址以及获取方式。经过多次尝试发现,url有两个参数需要改变:一个是当前页数,另一个是当前日期。而相应获取方式是requests的get方法,同时我们可以看见关于host,user-agent参数的说明。参见下图:
2.1.2网页源代码爬取
由上文我们已经知道了爬取此源代码的方法,那我们可以开始爬取啦!片段代码如下:
// 以下两个参数是url中需要改变的参数
int num = 1; // 当前页数
SimpleDateFormat dateFormat = new SimpleDateFormat("yyyyMMdd");
String currentDate = dateFormat.format(new Date()); // 当前日期
// 循环用于爬取所有页面
for (num = 1; num < 10; num++) {
String video_url =
"https://s.search.bilibili.com/cate/search?main_ver=v3&search_type=video&view_type=hot_rank&order=click©_right=-1&cate_id=22&page=" + String.valueOf(num) + "&pagesize=20&jsonp=jsonp&time_from=20190224&time_to=" + currentDate;
get_json(video_url, new