文本文件的数据挖掘:从字词消歧到信息检索
在文本数据挖掘中,我们面临着诸多挑战,如句法消歧、词义消歧以及信息检索等问题。下面将详细介绍相关的技术和方法。
1. 句法消歧与词义消歧
在文本分析中,句法消歧倾向于选择更常见的结构而非不常见的结构。涉及不常见结构的句法消歧往往会失败,因为它们的解析概率差异很小,需要从其他来源获取决策信息。可以通过对介词短语给予特殊关注,并结合已应用的概率技术,同时考虑特定单词相关标签的频率来辅助解决。
当文本数据挖掘依赖于更细粒度的语言信息,即单个单词时,就会出现多义词问题。多义词是指一个单词有多个含义或语义,通常通过监督消歧或无监督消歧两种方式来处理。这两种方法都利用了歧义单词的直接上下文,但一种方法将上下文视为“词袋”,忽略了句法信息;另一种方法则利用句法信息来辅助消歧过程。
1.1 监督消歧
Gale等人(1992)的方法是前者的代表,他们使用贝叶斯分类来检查歧义单词 w 的上下文窗口。其基本假设是,每个上下文单词都为确定 w 的正确语义贡献了一些信息。
设单词 w 可能的语义集合为 s1, s2, …, sM,可能的上下文集合为 c1, c2, …, cK。贝叶斯决策规则如下:
如果 P(si | c) > P(sk | c)(si ≠ sk),则选择语义 si。
P(si | c) 的值很少已知,但通过贝叶斯规则:
P(si | c) = P(c | si) / P(c) * P(si),其中 P(si) 是语义 si 的先验概率。
通过消除对所有语义都恒定的 P(c) 并使用概率的对数来简化方程,我们将语义 s∗ 分配给单词 w,其中:
超级会员免费看
订阅专栏 解锁全文
790

被折叠的 条评论
为什么被折叠?



