新冠前后加密货币的情绪分析与学术表现影响因素研究
新冠前后加密货币情绪分析
- 主题建模原理
- 单词的概率分布可以解释每个主题,有助于更清晰了解主题之间的联系。它会考虑数据中所有文档的语料库,对语料库预处理后,每个词袋包含常见词汇。
- 使用潜在狄利克雷分配(LDA)模型可以得出与每个文档相关的主题,并将所有语料库分组以便进一步使用。具体流程如下:
graph LR
A[收集语料库] --> B[语料库预处理]
B --> C[构建词袋]
C --> D[使用LDA模型]
D --> E[得出主题并分组]
- 新冠前主题分析
- 主题分类 :推文最初被分为四个主题。主题0显示多数人可能选择加密货币,“购买、关注、列出”等流行主题表明人们对加密货币有偏好。从主题2可知,元宇宙和区块链设施可能是人们对加密货币感兴趣的影响因素,“元宇宙、区块、准备好、编程”是该主题的高概率词汇。主题2和3中,“每周、收盘、项目”是与加密货币相关的最常用词汇。
- 主题可视化 :通过二维散点图展示主题,气泡越大表示该主题越频繁。主题1最受欢迎,主题4最不重要。气泡间的距离表示主题间的近似相似度。柱状图显示前30个最流行的主题,柱子代表