基于LDA和LSA的语义相似度度量实验及MDL模型的音译生成研究
在自然语言处理领域,语义相似度度量和机器音译是两个重要的研究方向。本文将为大家介绍基于LDA(Latent Dirichlet Allocation)和LSA(Latent Semantic Analysis)的语义相似度度量实验,以及基于最小描述长度原则(MDL)的音译生成模型。
基于LDA和LSA的语义相似度度量实验
- 实验结果 :通过对ULPC和MSRP测试数据的实验,对比了不同主题数量(T=100和T=300)下基于LDA的多种方法和基于LSA的方法。结果表明,最佳的基于LDA的方法可与基于LSA的方法相媲美。具体数据如下表所示:
| Method | Accuracy/Kappa/F-measure (T=300) (ULPC) | Accuracy/Kappa/F-measure (T=100) (ULPC) | Accuracy/Kappa/F-measure (T=300) (MSRP) | Accuracy/Kappa/F-measure (T=100) (MSRP) |
| — | — | — | — | — |
| LDA-IR | 71.17/16.17/81.94 | 68.24/3.09/80.92 | 67.47/4.52/79.87 | 67.01/3.15/79.98 |
| LDA-Hellinger | 71.32/18.85/81.75 | 68.24/2.46/80.99 | 67.36/4.39/79.73 | 67.18/3.50/80.04 |
| LDA-Manhattan | 71.0
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



