搭配发现与假设检验方法解析
1. 搭配发现的方差法
在语言分析中,我们常常关注词语之间的搭配关系。有些搭配在分布上呈现出有趣的特征,例如某些词对在其搭配分布的多个距离上都有较高的出现频次。像“strong business support”就是一个典型例子。
方差法是一种用于发现搭配的方法,它由Smadja提出。该方法会过滤掉位置直方图中“平坦”的峰值,即那些周围没有深谷的峰值(如“strong for”组合在 - 2 位置的情况)。这种方法在术语提取方面有不错的效果,估计准确率可达 80%,同时也有助于确定自然语言生成中的合适短语。
Smadja对搭配的定义相对宽松,像“knocked door”虽可能不算严格的术语搭配,但在文本生成中识别它可能很有用。方差法适合寻找那种比固定短语关系更松散、中间插入材料和相对位置可变的词语组合。
2. 假设检验在搭配发现中的应用
2.1 问题提出
在搭配发现中,高频和低方差可能是偶然的。例如“new companies”,“new”和“companies”本身就是常用词,即使它们不构成搭配,也可能偶然频繁共现。我们真正想知道的是两个词是否比随机情况更常一起出现,这就需要用到假设检验。
2.2 假设检验的基本原理
假设检验是统计学中的经典问题。我们先提出一个零假设,即词语之间除了随机出现外没有其他关联。然后计算在零假设成立的情况下事件发生的概率 p。如果 p 低于某个显著性水平(如 0.05、0.01、0.005 或 0.001),我们就拒绝零假设;否则,保留零假设。
需要注意的是,这是一种同时考虑数据模式和数据量
超级会员免费看
订阅专栏 解锁全文
1184

被折叠的 条评论
为什么被折叠?



