85、文本挖掘中的特征构建与选择

文本挖掘中的特征构建与选择

1. 文本挖掘中的特征构建

1.1 非线性方法

在文本挖掘中,强大的特征表示可以通过统计方法获得。例如,概率潜在语义分析(PLSA)是一种无监督方法,它将文档语料库建模为好像由潜在主题的混合生成,每个主题表示为单词上的概率分布。该模型包括每个潜在主题和每个文档的主题概率 $P(´|d)$ 以及每个单词和主题的单词概率 $P(w|´)$。然而,PLSA 的一个缺点是它不能轻易扩展来建模训练期间未见过的文档的概率。潜在狄利克雷分配(LDA)解决了这个问题,它将每个文档中的主题混合建模为从狄利克雷分布中采样的随机变量。

在这两种情况下,主题混合 $ ´$ 可以解释为文档 $d$ 的新特征向量表示,同样,条件概率 $ ´$ 可以解释为术语 $w$ 的新特征向量表示。

另一个重要的非线性特征构建方法家族是深度学习方法,它基于训练一个包含至少一个隐藏层的多层神经网络模型。传统上,人们关注网络最终输出层的输出,该输出旨在解决网络最初训练的任何学习任务。然而,在深度学习中,人们丢弃输出层,而是使用隐藏层的输出作为输入文档(或单词、n - 元组等)的新特征向量表示。例如 word2vec 就是这样的一种表示。

1.2 其他方法

还有许多其他从文本中提取或构建特征的方法,这取决于特征的预期用途。例如,可以考虑语料库的双重表示,其中特征用于表示术语而不是文档。术语 $t$ 的特征向量为每个文档包含一个特征,其值与 $t$ 在该文档中的频率相关。这种表示可用于分析哪些单词经常共现,因此可能在意义上相关。特征构建还可以利用信息提取方法,例如识别各种类型的命名实体(人名、地名、组织名等)或其

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值