题目:Understanding the Users and Videos by Mining a Novel Danmu Dataset
作者:Guangyi Lv, Kun Zhang, Le Wu, Enhong Chen, Tong Xu, Qi Liu, and Weidong He
发表:IEEE TRANSACTIONS ON BIG DATA, 2022
切入点:弹幕交流是否有助于更好的用户行为建模或视频分析?
解决方案:建立大数据集,并进行基本分析
一、数据集生成
针对这一问题,本文通过引入一个从bilibili平台收集的弹幕数据集,对用户和视频进行了初步的分析尝试。该数据集包含1.7TB的视频和弹幕,涉及8个视频类别,790万弹幕记录和480万视频帧。
数据集下载网址:“http://bigdata.ustc.edu.cn/dataset/Danmus”
对数据集的预处理包括:弹幕文本翻译、字体颜色字段缩减、视频关键帧抽取等。
二、对数据集的统计分析
1.弹幕句子长度情况:短
2.弹幕数随播放时间的分布:先多后少
3.颜色: