文本挖掘中的特征构建与选择
1. 文本挖掘中的特征构建
1.1 非线性方法
在文本挖掘中,强大的特征表示可以通过统计方法获得。例如,概率潜在语义分析(PLSA)是一种无监督方法,它将文档语料库建模为好像由潜在主题的混合生成,每个主题表示为单词上的概率分布。该模型包括每个潜在主题和每个文档的主题概率 $P(´|d)$ 以及每个单词和主题的单词概率 $P(w|´)$。然而,PLSA 的一个缺点是它不能轻易扩展来建模训练期间未见过的文档的概率。潜在狄利克雷分配(LDA)解决了这个问题,它将每个文档中的主题混合建模为从狄利克雷分布中采样的随机变量。
在这两种情况下,主题混合 $ ´$ 可以解释为文档 $d$ 的新特征向量表示,同样,条件概率 $ ´$ 可以解释为术语 $w$ 的新特征向量表示。
另一个重要的非线性特征构建方法家族是深度学习方法,它基于训练一个包含至少一个隐藏层的多层神经网络模型。传统上,人们关注网络最终输出层的输出,该输出旨在解决网络最初训练的任何学习任务。然而,在深度学习中,人们丢弃输出层,而是使用隐藏层的输出作为输入文档(或单词、n - 元组等)的新特征向量表示。例如 word2vec 就是这样的一种表示。
1.2 其他方法
还有许多其他从文本中提取或构建特征的方法,这取决于特征的预期用途。例如,可以考虑语料库的双重表示,其中特征用于表示术语而不是文档。术语 $t$ 的特征向量为每个文档包含一个特征,其值与 $t$ 在该文档中的频率相关。这种表示可用于分析哪些单词经常共现,因此可能在意义上相关。特征构建还可以利用信息提取方法,例如识别各种类型的命名实体(人名、地名、组织名等)或其
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



