💟博主:程序员君君:优快云作者、博客专家、全栈领域优质创作者 💟
专注于计算机毕业设计,大数据、深度学习、Java、小程序、python、安卓等技术领域 📲文章末尾获取源码+数据库
🌈还有大家在毕设选题(免费咨询指导选题),项目以及论文编写等相关问题 ⭐都可以直接找我解答、希望可以帮助更多人
今日要和大家分享的是《基于K-means弹幕评论系统的分析与实现》
关键技术: Python、爬虫、k-means
6 弹幕设计及预处理
6.1弹幕数据获取
鉴于国内视频网站 AcFun和哔哩哔哩是最早引进弹幕系统的网站,接二连三的系统相对成熟,并有大量的用户使用它来观看视频。其中,网站上的视频数量为100多万,每天,和一连串的总数超过1.4十亿。因此,对于这个话题的数据源是基于几种不同类型的视频接二连三的文本本文选择视频网站接二连三的数据。
试验。在数据采集的方面,被Python引用的重新任务模块保存由网络请求每个特定视频被观看到的本地时间返回的数据(文本坝和相关内容)。由于每个请求最多可返回8000接二连三的文本数据,可以通过相关接口开放给网站获得请求的最大数,然后走过来获取所有拦河坝每个视频可以采取。数据所需抓取使用爬虫技术的网站,如图1中所示.

图1 弹幕数据案例
哔哩哔哩视频网站目前活跃用户超过1.5亿,从哔哩哔哩网站下载的弹幕数据中,每条弹幕包含8个参数,这些参数构成了一条弹幕的所有属性,这8个参数分别是:
(1)弹幕出现时间(以距离视频开始的秒数为单位);
(2)弹幕的模式(包含滚动弹幕、顶端弹幕、高级弹幕等);
(3)弹幕的字号大小;
(4)弹幕的字体颜色;
(5)弹幕的发布时间(Unix格式的时间戳);
(6)弹幕池;
(7)加密后的弹幕发送者的ID;
(8)弹幕在弹幕数据库中 的rowID(查 看“历史弹幕”的时候使用)。
〈d〉标签里的内容是弹幕文本,即弹幕内容,〈d〉标签的p属性是该弹幕的其他特征。
在网站爬取时候获得弹幕编号如图3


图3 弹幕编号
6.2 设计界面
网络新媒体的流行下,弹幕视频对语言本身产生重要的影响,而且也改变语言表达情感的方式,弹幕视频网站数据的收集和处理对于用户特征的研究至关重要。研究弹幕数据的特点和其表达的情感,实时数据帮助用户可以更好的理解剧情,更好的了解内容之间的关系。深入分析弹幕的特点,挖掘存在的情感信息,会发现他们之间的内在关系。对弹幕文本数据进行收集和处理,将积极性弹幕和消极性弹幕区分开来,对消极的、不好的弹幕信息进行过滤再呈现在视频上。通过K-均值聚类算法,谁发布的阻塞所有用户被分类时,用户的值进行分析,以及情感相似性和观看者观看特定类型的视频的差进行了研究,如示于图4.

图4 数据分析界面
6.3 弹幕的情感分析
随着网络视频的普及和网络视频用户的快速增长,用户对网络视频的拦截很有可能将其他用户的实时评价作为理解视频的参考信息。另外,弹幕信息也可以使用于吐槽技术的发展,他们之间的关系也是不能分割的。弹幕视频可以增加用户之间的互动关系。现在,针对巴洛文本数据的情绪分析领域的研究很少。事实上,随着弹幕技术的发展,和丰富的社会需求,弹幕出现的文本都可以作为视频的参考内容,满足用户对视频类型和情节内容的理解,并满足用户对视频类型的检索需要。所以,需要对弹幕的文本数据进行情感分析,这对网络视频的选择以及视频内容的判断有一定的意义的基础上,一个值得研究的要求。
随着互联网技术的发展,数字化技术逐渐流行发展开来,使用网络技术实现人与人之间的沟通交流,使用的人的数量也逐渐增多。同时,因为社会实践过程会对人有很大的影响力,很多没有意义的词汇和语句都被赋予了某些特殊的意义,如前一段时间比较流行的“蓝瘦”一词,就是在网络视频中出现的,可能是因为说话的人说话不清晰,造成的将“难受”读作“蓝瘦”,很多网友感觉很好玩,就用这个搞笑的词语来表达表示自己内心的难受。化学中指(物体)具有高能量,并且膜的含量是指高表现力。随着时代的变迁,在现代社会中,“高能量”一词常被用来指对社会的杰出贡献。人。在网络视频中,经常与“引用高能量”一起使用,这意味着即将播出的视频集有一个亮点,包含一种嘲讽感。这是因为在科幻电影中,当军舰遇到敌人的辐射束时,探测器探测到的高粒子响应被称为高能反应。在常用的分词程序中,在一般字典中不能查到的识别的词语,是不能被句子分割的,所以不能对句子进行有效的分割,进而影响文本语义分割和情感分析,最后得到分析结果。所以,需要使用一个网络视频,根据其中存在的弹幕,对他进行字典查询,用于识别一般弹幕中存在的词语,并通过使用分析词语,将文本分贝做文本语义分析和情感分析,图5.

图5 情感分析结果
6.3 过滤弹幕显示
pakku 目前只支持 B 站的 HTML5 播放器,所以你需要先将 B 站的播放器切换成 HTML5 版本,在 pakku 安装后它也会询问并引导你进行切换。默认情况下,pakku 会将短时间内大量重复的弹幕汇合成一条,并在结尾以[x21]等样式进行展示。这样的好处就是大大提高了观赏性,同时不会让相同的弹幕遮挡了其他的弹幕,如图6

并保存为如图3

图5 过滤弹幕结果
493

被折叠的 条评论
为什么被折叠?



