社交媒体文本中的心理健康与孤独感分析
1. 推文聚类与相似度测量
推文分布较为分散。在将单词转换为词向量后,可使用主成分分析(PCA)进行降维并可视化聚类结果。
- 相似度测量方法 :余弦相似度得分通过测量两个向量的距离来确定单词上下文的相似度。具体操作步骤如下:
1. 将已聚类推文中的每个单词归为一组。
2. 计算每组词向量的平均值。
3. 基于具有特定上下文的聚类计算生成向量值,得到三个向量。
4. 计算每个均值与“心理健康”词向量的相似度得分。
不同词向量技术的相似度得分范围如下:
| 词向量技术 | 相似度得分范围 | 第一簇范围 | 第二簇范围 | 第三簇范围 |
| — | — | — | — | — |
| Word2Vec | 0.40 - 0.45 | 0.20 - 0.45 | 0.401 - 0.405 | 0.406 - 0.414 |
| ELMo | 0.10 - 0.50 | 0.20 - 0.50 | 0.446 - 0.450 | 0.443 - 0.448 |
| BERT | 0.65 - 0.75 | 0.5 - 0.75 | 0.6785 - 0.6800 | 0.6784 - 0.6794 |
2. 模型评估
使用混淆矩阵评估模型性能,混淆矩阵是一个描述分类在已知真实值的训练集上表现的表格。不同词向量技术结果如下:
- Word2Vec评估结果
| T | 精确率(%) | 召回率(%) | F1(%) | 准确率(%)
超级会员免费看
订阅专栏 解锁全文
1385

被折叠的 条评论
为什么被折叠?



