基于情感分析的分布式多模态主题模型研究
1. 引言
如今,社交媒体网络在信息传播和意见交流方面发挥着重要作用。人们通过社交媒体分享对各种有趣话题的看法,这些意见深刻影响着我们的决策。随着数字化的发展,像 Twitter、Facebook 和 Yahoo! 等热门社交网站以及医疗保健网站的使用量急剧增加,产生了大量数据集。
Twitter API 每天会更新数百万条关于各类主题的用户帖子,例如健康推文。很多人会在社交媒体上搜索健康话题以辅助做出健康决策。然而,一些传统的数据汇总方法在有效分析这些数据集时逐渐显得力不从心。
1.1 主题建模概述
主题建模是一种用于发现文档中潜在语义模式的概率技术。在这个概念中,文档由多个术语组合而成,并可转化为单词分配概率。以生物医学文档为例,它们具有非结构化和高维度的特点,因此有多种处理生物医学文本文档的方法,比如 FLSA、LDA 和 LSA。
- 潜在狄利克雷分配(LDA) :它包含预测外部文本语料库中不同单词和主题后验分布的概率。通常使用 Gibbs 抽样算法来传播 LDA 主题,这是一种迭代方法。该技术需要选择一些参数,如主题数量、迭代次数和狄利克雷优先级。因此,LDA 的主题模型需要进行深入的实验分析,以实现最佳匹配。
- 潜在语义分析(LSA) :该技术通过统计计算从大量论文集合中提取主题,并展示单词的语义含义。LSA 在最小化向量空间模型维度的同时检测潜在类别。
此外,虚假信息如今被认为是对民主的最大威胁。
超级会员免费看
订阅专栏 解锁全文
2183

被折叠的 条评论
为什么被折叠?



