分布式多模态主题模型与物联网路由方案研究
分布式多模态主题模型相关内容
模型基础与HdiPLSA
在处理文本数据时,有一些基础的模型和概念。例如,存在一些矩阵定义:
- ([H]def ([H], [WTX]/[WTWH]))
- ([W]def ([W], [XHT]/[WHHT]))
当矩阵未简化时保持稳定,一种不太正式但更直观的解释可将其视为大梯度斜率,大梯度斜率记录如下:
- ([H]defH - (n, (WTWH] - WTX)))
- ([W]defW - (C, -[XHT - WHHT]))
概率潜在语义分析(HdiPLSA)是概率框架下的一种信息建模方法。数据从各种视角节点分布,如名称节点和从节点。HdiPLSA 有两种理解方式,一是潜在变量模型,二是矩阵分解。它是一种主题模型,是对潜在语义分析(LSA)的改进,旨在通过用以下公式替换 LSA 中的奇异值分解(SVD)从语料库中找到潜在主题:
[P(D, W)def (P(D), Z [P(Z|D), p(W|Z) ]
这里,(P(D))、(P(Z|D)) 和 (P(W|Z)) 是表示的参数。(P(D)) 从数量上直接评估,(P(Z|D)) 和 (P(W|Z)) 是多项分布模型,通过期望最大化(EM)算法进行训练。有趣的是,(P(D,W)) 还可以通过不同的参数组合进行一致参数化:
[P(D, W)def Z (P(Z), P(D|Z), P(W|Z)]
主题概率 (P (Z)) 对应单个主题的概率斜矩阵,已知主题的文档概率 (P (D | Z)) 对应矩阵主题 U - 文档,给定主题上的
超级会员免费看
订阅专栏 解锁全文
754

被折叠的 条评论
为什么被折叠?



