SimLDA与自然语言数据库查询虚拟助手技术解析
SimLDA:主题模型评估工具
SimLDA是一个能够创建大量模拟文档的工具,其可设置的超参数范围广泛。通过改变诸如每个文档的主题数量和主题宽度等超参数,我们可以在各种语料库上比较主题模型的性能。
不同模拟数据集的表现
- 较小模拟数据集 :在包含500个文档的较小模拟数据集上,对Gibbs和VB两种算法的Cv分数进行了分析。从图中可以看出,不同主题数量下两种算法的Cv分数有所不同。
| 主题数量 | 4 | 5 | 6 | 7 | 8 | 9 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| Cv分数范围 | 0.30 - 0.70 | 0.30 - 0.70 | 0.30 - 0.70 | 0.30 - 0.70 | 0.30 - 0.70 | 0.30 - 0.70 |
graph LR
A[较小模拟数据集] --> B[Gibbs算法]
A --> C[VB算法]
B --> D[计算Cv分数]
C --> D
D --> E[分析不同主题数量下分数]
- 较大模拟数据集 :此数据集中每个文档的主题更多(6个主题,而非较小数据集的3个),这意味着每个文档内的主题重叠更大,推理问题更难解决。在所有语料库组(从包含100个文档到包含500
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



