今天要抓取的是虎牙频道的直播页,本篇博客的学习重点,依旧是多线程爬虫。
目标数据分析
本次要采集的数据列表呈现如下,其中数据在切换时,来自于服务器接口,故本案例为面向接口的多线程爬虫。
接口 API 如下所示:
https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&tagAll=0&callback=getLiveListJsonpCallback&page=2
https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&tagAll=0&callback=getLiveListJsonpCallback&page=3
接口请求方式为:GET
服务器数据返回格式为:JSON
其中参数说明如下:
- m:猜测为频道的意思;
- do:接口名称;
- tagAll:标签名;
- callback:回调函数;
- page:页码。
测试接口,发现除