概率句法分析方法的深入探讨
1. A*搜索算法
在概率句法分析中,A*搜索算法是一种重要的优化方法。其核心在于选择乐观估计,即对后续步骤的概率估计始终等于或高于实际成本。这样做能保证搜索算法的完整性和最优性。
A 搜索算法效率极高,它能引导解析器朝着最接近完整推导的部分推导前进。实际上,A 搜索是最优效率的,意味着没有其他最优算法能保证探索更少的搜索空间。
2. 其他搜索方法
我们对搜索方法的探讨只是冰山一角,更多信息可在大多数人工智能教科书中找到。当维特比算法不适用时,通常也无法使用高效训练,如期望最大化(EM)算法。不过,还有其他方法,例如IBM探索的通过构建决策树来最大化某种可能性。
3. 几何均值的使用
标准概率方法通常会涉及大量概率的相乘,这基于链式法则,但往往需要做出大量条件独立假设以使模型可用。然而,这些独立性假设常常不合理,会导致大量误差积累。
具体问题包括:对树的概率估计过低,因为未能对依赖关系进行建模;稀疏数据问题,即对不常见或未见过的结构的概率估计过低;以及有缺陷的模型,如错误地偏向于给短句子更高概率。
为解决这些问题,有人建议计算各种推导步骤的几何均值(或等效的平均对数概率)。这种方法虽有时在实践中有效,但只是治标不治本。为加速图表解析,Caraballo和Charniak表明,使用构成成分的规则概率的几何均值来评估哪些边值得扩展,比单纯使用成分的概率效果更好。不过,他们也指出,开发更好的概率度量方法能取得更好的效果。
4. 非词汇化语法
概率解析器可分为处理单词的词汇化解析器和处理词
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



