爬取用户信息和观看人数
摘要:
此篇文章主要是对Ajax和json两个的练习。如何抓取异步加载的网站以及返回的json数据的提取。
目标站点网站:https://www.douyu.com/g_LOL
分析:
打开网址,进行翻页的时候,发现头部的URL不变化,分析后台请求发现如下需要的数据都在如下图所示里面的response,切都是json格式。

分析请求url,发现是采用get的方式请求,翻页后发现变化的只是最后一位数字,故只需要构造url,通过改变url就可以爬取需要的数据了。
for x in rang(1,10):
url = 'https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(x)
代码如下:
import requests
import json
import time
import csv
def parse_page_detail(response):
html_json = json.loads(response.text)
# 从返回的json数据中提取出需要的数据
infos = html_json['data']['rl']
for info in infos:
PlayerName = info['rn']
audience = info['ol']
game = info['c2name']
items = [PlayerName,audie

本文主要介绍了如何使用Ajax和json技术来抓取斗鱼直播平台上LOL分区的用户信息和观看人数。通过分析网页请求,发现数据以json格式存在于响应中,并且翻页时URL的末尾数字发生变化。通过构造URL并解析json数据,可以实现所需信息的爬取。
最低0.47元/天 解锁文章
2050





