6、大规模流式文本分布式主题模型与蛋白质结构相似性预测方法

大规模流式文本分布式主题模型与蛋白质结构相似性预测方法

在自然语言处理和生物信息学领域,分别有两个重要的研究方向值得关注,一是大规模流式文本的主题模型,二是蛋白质结构相似性的预测。下面将详细介绍相关的模型、方法以及实验结果。

大规模流式文本分布式主题模型
1. HDP模型文档生成过程

HDP(Hierarchical Dirichlet Process)模型生成文档的过程如下:
- 从连续基础分布 (H) 中,以超参数 (c_0) 采样得到离散的语料级主题分布 (G_0),数学表示为 (G_0|c_0; H \sim DP(c_0; H)),其中 (DP) 是狄利克雷过程。
- 从 (G_0) 中,以超参数 (a_0) 采样得到每个文档 (m) 的离散文档级分布 (G_m),即 (G_m|a_0; G_0 \sim DP(a_0; G_0))。超参数 (a_0) 决定了聚类(主题)的数量,(c_0) 和 (a_0) 共同决定了每个 (G_m) 分布之间的原子相关性。
- 从 (G_m) 中抽取每个主题分布 (h_{mn}),即 (h_{mn}|G_m \sim G_m)。
- 从主题分布 (h_{mn}) 中采样得到每个单词 (w_{mn}),即 (w_{mn}|h_{mn} \sim Mult(h_{mn})),其中 (Mult(.)) 是多项采样。

通过以上过程,就可以生成与主题分布相对应的文档。

2. HDP的狄利克雷过程构建

OnlineHDP利用Sethuraman的断棍法构建HDP,遵循两层断棍过程:
- 第一层断棍

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值