YouTube视频标题党检测与人工智能辅助的网络风险预警
1. YouTube视频标题党检测
在当今的网络环境中,标题党视频在YouTube等平台上屡见不鲜。为了对YouTube视频进行标题党和非标题党分类,研究人员利用了先进的技术。
1.1 特征与模型选择
研究中利用了三种主要类型的特征,分别是用户资料、视频统计数据和文本数据。同时考虑了多种分类技术,包括逻辑回归(LR)、随机森林(RF)和多层感知器(MLP),并且采用了Word2Vec、BERT和DistilBERT作为语言模型。
不同模型的准确率对比情况如下表所示:
| 模型 | 准确率 |
| — | — |
| LR (Word2Vec) | 0.70 |
| RF (Word2Vec) | 0.93 |
| MLP (Word2Vec) | 0.91 |
| MLP+ (Word2Vec) | 0.88 |
| MLP (BERT) | 0.95 |
| MLP (DistilBERT) | 0.92 |
从表格数据可以看出,基于BERT嵌入的MLP分类器取得了最佳准确率,不过更轻量级的DistilBERT表现也十分接近。此外,研究还证实通过添加更多特征可以提高模型的准确率。
1.2 未来研究方向
为了进一步提升标题党检测的效果,未来的研究可以从以下几个方面展开:
- 增加特征 :视频的文字转录稿可能包含有用信息,例如转录稿与标题之间的“距离”能提供重要洞察,因为标题党视频的内容往往与标题差异显著。此外,
超级会员免费看
订阅专栏 解锁全文
1204

被折叠的 条评论
为什么被折叠?



