斗鱼爬取用户信息和观看人数

最新推荐文章于 2024-05-05 12:15:35 发布

原创

最新推荐文章于 2024-05-05 12:15:35 发布 · 2.2k 阅读

0 ·

CC 4.0 BY-SA版权

本文主要介绍了如何使用Ajax和json技术来抓取斗鱼直播平台上LOL分区的用户信息和观看人数。通过分析网页请求，发现数据以json格式存在于响应中，并且翻页时URL的末尾数字发生变化。通过构造URL并解析json数据，可以实现所需信息的爬取。

爬取用户信息和观看人数

摘要：

此篇文章主要是对Ajax和json两个的练习。如何抓取异步加载的网站以及返回的json数据的提取。
目标站点网站：https://www.douyu.com/g_LOL

分析：

打开网址，进行翻页的时候，发现头部的URL不变化，分析后台请求发现如下需要的数据都在如下图所示里面的response，切都是json格式。
在这里插入图片描述
分析请求url，发现是采用get的方式请求，翻页后发现变化的只是最后一位数字，故只需要构造url，通过改变url就可以爬取需要的数据了。

for x in rang(1,10):
	url = 'https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(x)

代码如下：

import requests
import json
import time
import csv

def parse_page_detail(response):
    html_json = json.loads(response.text)
#   从返回的json数据中提取出需要的数据
    infos = html_json['data']['rl']
    for info in infos:
        PlayerName = info['rn']
        audience = info['ol']
        game = info['c2name']
        items = [PlayerName,audie