不知道大家有木有收看兴风作浪 乘风破浪的姐姐们吖?你最喜欢哪个姐姐呢?看看哪个姐姐最受弹幕欢迎吧
今天(昨天),先把芒果TV的《乘风破浪的姐姐》弹幕爬下来再说
from bs4 import BeautifulSoup
import requests
import os
import json
import pandas as pd
from wordcloud import WordCloud, ImageColorGenerator
import imageio
import seaborn as sns
import matplotlib.pyplot as plt
import jieba
import collections # 词频统计库

分析可知,弹幕的json都存在这些地方,分别复制“0.json”,“1.json”,“2.json”的URL康康
‘https://bullet-ws.hitv.com/bullet/2020/06/23/095353/8337559/0.json’
‘https://bullet-ws.hitv.com/bullet/2020/06/23/095353/8337559/1.json’
‘https://bullet-ws.hitv.com/bullet/2020/06/23/095353/8337559/2.json’
发现前面的都一样,只有最后的x.json是按照节目的时间来定的,第1分钟就是0.json,以此类推。
另外其他期的URL,前面的也是一样的,只有最后的两串数字每期有一些差别
以此为依据就可以写代码啦。
#提取某一期的弹幕
def get_danmu(num1,num2,page):
url='https://bullet-ws.hitv.com/bullet/2020/06/23/{}/{}/{}.json'
danmuurl = url.format(num1,num2,page)
res=requests

最低0.47元/天 解锁文章





