自然语言处理与数据集相关问题探讨
在自然语言处理(NLP)和数据集领域,有许多常见的问题和需求。下面将对这些问题进行详细的探讨和解答。
1. 主题建模方法:LDA 与 HDP
主题建模是自然语言处理中的一个重要任务,Latent Dirichlet Allocation(LDA)和 Hierarchical Dirichlet Process(HDP)是两种常见的主题建模方法。
LDA 需要预先指定主题的数量,而 HDP 则不需要。这是因为 HDP 是 LDA 的扩展,旨在处理混合组件(在文档建模中即主题数量)事先未知的情况。
在使用 LDA 进行文档建模时,每个“主题”被视为已知词汇表中单词的分布。对于每个文档,从 Dirichlet 分布中抽取主题的混合,然后文档中的每个单词独立地从该混合中抽取(即选择一个主题,然后用它生成一个单词)。
对于 HDP(应用于文档建模),同样使用 Dirichlet 过程来捕捉主题数量的不确定性。选择一个共同的基础分布,它代表语料库中可能主题的可数无限集,然后从这个基础分布中采样每个文档的有限主题分布。
HDP 的优点是主题的最大数量可以是无界的,并且可以从数据中学习,而不是预先指定。然而,它的实现更复杂,在可接受有界主题数量的情况下可能是不必要的。
另一位回答者 Charlie - Greenbacker 表示,他对分层 LDA 的输出并不满意,因为它似乎无法找到选择主题数量的最佳粒度。他通过多次运行常规 LDA,手动检查生成的主题,决定增加或减少主题数量,直到达到所需的粒度,从而获得了更好的结果。
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



