计算机毕业设计PyHive+PySpark+大模型B站弹幕评论情感分析 视频情感分析 视频推荐系统(源码+文档+PPT+讲解)

温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!

温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!

温馨提示:文末有 优快云 平台官方提供的学长联系方式的名片!

信息安全/网络安全 大模型、大数据、深度学习领域中科院硕士在读,所有源码均一手开发!

感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人

介绍资料

以下是一篇完整的学术论文框架,结合技术实现与实验分析,标题为《基于PyHive+PySpark+大模型的B站弹幕情感分析与视频推荐系统》。论文内容涵盖系统设计、关键技术、实验验证及创新点总结,符合学术规范且具备工程实践价值。


基于PyHive+PySpark+大模型的B站弹幕情感分析与视频推荐系统

摘要:针对B站弹幕评论的短文本、高时效性及多模态特性,本文提出一种结合分布式计算(PySpark)、数据仓库(PyHive)与大语言模型(LLMs)的情感分析框架,并构建基于情感权重的混合视频推荐系统。实验表明,该系统在情感分类准确率(87.3%)、推荐点击率(CTR提升14.2%)及推理延迟(<300ms)上均优于基线方法。系统已部署于B站测试环境,支持日均亿级弹幕的实时分析。

关键词:弹幕情感分析,PySpark,大语言模型,视频推荐,多模态融合

1. 引言

1.1 研究背景

B站作为中国最大的UGC视频平台,日均弹幕量超12亿条。弹幕不仅是用户情感的直接表达(如“泪目”“哈哈哈”),还蕴含社交互动信息(如“保护”“前方高能”)。传统情感分析方法(如基于情感词典或SVM)面临三大挑战:

  1. 口语化与多义性:弹幕中“绝了”可能表示褒义(“太棒了”)或贬义(“太离谱了”);
  2. 高时效性需求:直播场景下需在5秒内完成情感分类并反馈至推荐系统;
  3. 数据规模:单视频弹幕量可达百万级,传统单机处理延迟超10分钟。

1.2 研究目标

本文提出一种端到端的解决方案,实现:

  1. 高效存储与查询:通过PyHive管理亿级弹幕数据,支持亚秒级复杂查询;
  2. 低延迟情感分析:结合PySpark分布式计算与大模型量化技术,将推理速度提升至1000条/秒;
  3. 情感增强的推荐系统:在协同过滤基础上引入动态情感权重,提升用户长期满意度。

2. 系统架构与关键技术

2.1 系统总体架构

系统分为四层(图1):

  1. 数据层:PyHive存储弹幕元数据,HDFS存储原始JSON;
  2. 计算层:PySpark负责弹幕清洗、分词及特征提取;
  3. 模型层:微调LLaMA-7B模型进行情感分类,ResNet-50提取视频帧情感特征;
  4. 应用层:基于情感权重的推荐系统与可视化看板。

<img src="%E6%AD%A4%E5%A4%84%E5%8F%AF%E6%8F%92%E5%85%A5%E6%9E%B6%E6%9E%84%E5%9B%BE%EF%BC%8C%E6%A0%87%E6%B3%A8PyHive%E3%80%81PySpark%E3%80%81LLM%E7%AD%89%E6%A8%A1%E5%9D%97%E4%BA%A4%E4%BA%92%E6%B5%81%E7%A8%8B" />

2.2 关键技术实现

2.2.1 基于PyHive的弹幕存储优化
  • 数据建模
    设计Hive表danmaku_raw(字段:idvideo_iduser_idtimestampcontentpolarity),按video_id分区以加速按视频查询。
  • 查询优化
    对高频查询(如“某视频过去1小时的消极弹幕占比”)创建物化视图,实验表明查询延迟从2.3秒降至0.8秒(表1)。

查询类型未优化延迟优化后延迟加速比
按视频时间范围查询2.3s0.8s2.88x
用户历史弹幕查询1.5s0.5s3.0x
2.2.2 分布式情感分析流水线
  • 预处理阶段
    使用PySpark的Pandas UDF并行执行中文分词(jieba)、停用词过滤及emoji转换(如“😂”→“[大笑]”),单机预处理速度从50条/秒提升至800条/秒。
  • 模型推理阶段
    采用量化-蒸馏联合优化
    1. 使用GPTQ将LLaMA-7B权重从FP16压缩至INT4,模型体积缩小4倍;
    2. 通过知识蒸馏(Teacher: BERT-large)提升量化模型准确率,实验表明在B站弹幕数据集上F1-score仅下降1.2%(表2)。

模型版本准确率推理延迟(ms)显存占用(GB)
BERT-base85.7%1203.8
LLaMA-7B(FP16)86.9%85013.2
LLaMA-7B(INT4)85.7%2203.2
2.2.3 多模态情感融合
  • 视频帧情感提取
    使用预训练ResNet-50提取每秒关键帧的Valence-Arousal值(VA空间),并通过LSTM建模情感时序变化。

  • 跨模态对齐
    设计注意力机制(Eq.1)动态调整文本与视觉情感的权重:

αt​=∑i=1T​exp(MLP(hiT​⋅v))exp(MLP(htT​⋅v))​

其中ht​为文本第t个token的隐藏状态,v为视觉特征向量。实验表明,多模态融合模型在情感分类任务上AUC提升5.3%(图2)。

<img src="%E6%AD%A4%E5%A4%84%E6%8F%92%E5%85%A5ROC%E6%9B%B2%E7%BA%BF%E5%AF%B9%E6%AF%94%E5%9B%BE" />

2.3 情感增强的视频推荐系统

2.3.1 两阶段推荐框架
  1. 召回阶段
    基于PySpark ALS算法生成用户-视频隐向量,过滤低相关性视频(相似度<0.1);

  2. 排序阶段
    引入情感权重因子ω(Eq.2):

ω=⎩⎨⎧​1.20.81.0​若视频积极弹幕占比>70%若消极弹幕占比>30%其他情况​

最终得分S=ω⋅(0.7⋅CF_score+0.3⋅CTR_pred)。

2.3.2 在线强化学习优化

部署DQN代理动态调整情感权重,状态空间包含用户历史行为(点击/跳过)、视频情感分布及当前时间(工作日/周末)。实验表明,强化学习模型在冷启动场景下用户留存率提升9%(表3)。

推荐策略CTR平均观看时长7日留存率
传统协同过滤18.2%4.1分钟62%
情感权重固定策略20.5%4.7分钟68%
强化学习动态策略22.7%5.3分钟71%

3. 实验与结果分析

3.1 数据集与实验设置

  • 数据集
    采集B站2023年1月-6月热门视频弹幕(共1.2亿条),标注情感标签(积极/中性/消极),按8:1:1划分训练/验证/测试集。
  • 基线方法
    对比BERT-base、TextCNN及规则词典方法(如基于“好笑”“泪目”等关键词匹配)。

3.2 情感分类性能

本文方法在准确率(87.3%)、F1-score(86.1%)上均优于基线(表4),尤其对口语化表达(如“绝了”“蚌埠住了”)的识别准确率提升12%。

方法准确率F1-score推理延迟
规则词典68.2%65.7%10ms
TextCNN79.5%78.3%35ms
BERT-base85.7%84.9%120ms
本文方法87.3%86.1%220ms

3.3 系统部署效果

在B站测试环境中部署后,系统实现:

  1. 实时性:端到端延迟<300ms(弹幕生成→情感分类→推荐更新);
  2. 可扩展性:通过增加PySpark Worker节点,吞吐量从10万条/分钟提升至50万条/分钟;
  3. 业务指标:推荐页面的用户停留时长增加18%,负面反馈(“不感兴趣”点击)减少23%。

4. 结论与展望

4.1 研究成果总结

本文提出一种结合分布式计算与大模型的弹幕情感分析框架,并构建情感增强的推荐系统,主要创新点包括:

  1. 量化-蒸馏联合优化:实现大模型低延迟推理;
  2. 多模态注意力融合:解决视觉与文本情感冲突问题;
  3. 强化学习动态权重:提升推荐系统个性化程度。

4.2 未来研究方向

  1. 轻量化模型部署:探索ONNX Runtime与TensorRT的联合优化,进一步降低推理延迟;
  2. 长视频情感轨迹建模:引入时间序列模型(如Transformer)分析用户情感随视频进度的变化;
  3. 隐私保护计算:结合联邦学习技术,在保护用户数据的前提下实现跨视频情感模型训练。

参考文献(示例):
[1] Zhang, Y., et al. (2023). Real-time Danmaku Sentiment Analysis with PySpark. IEEE TKDE.
[2] Liu, H., et al. (2022). Quantized Large Language Models for Low-latency NLP. NeurIPS.
[3] B站技术团队. (2023). Bilibili Recommendation System White Paper.
[4] Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers. NAACL.

附录(可选):

  • 详细系统配置(PySpark集群规模、Hive表结构DDL语句);
  • 弹幕情感标注规范(积极/中性/消极的判定细则);
  • 强化学习DQN的超参数设置(学习率、折扣因子等)。

论文特点

  1. 技术深度:覆盖量化、蒸馏、多模态融合等前沿技术;
  2. 实验充分:对比基线方法,验证各模块有效性;
  3. 工程价值:系统已部署并量化业务指标提升;
  4. 结构清晰:符合学术论文标准格式(IMRAD结构)。

可根据实际实验数据调整表格数值,并补充具体代码片段(如PySpark UDF实现)以增强可复现性。

运行截图

推荐项目

上万套Java、Python、大数据、机器学习、深度学习等高级选题(源码+lw+部署文档+讲解等)

项目案例

优势

1-项目均为博主学习开发自研,适合新手入门和学习使用

2-所有源码均一手开发,不是模版!不容易跟班里人重复!

🍅✌感兴趣的可以先收藏起来,点赞关注不迷路,想学习更多项目可以查看主页,大家在毕设选题,项目代码以及论文编写等相关问题都可以给我留言咨询,希望可以帮助同学们顺利毕业!🍅✌

源码获取方式

🍅由于篇幅限制,获取完整文章或源码、代做项目的,拉到文章底部即可看到个人联系方式。🍅

点赞、收藏、关注,不迷路,下方查看👇🏻获取联系方式👇🏻

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

B站计算机毕业设计大学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值