85、文本挖掘中的特征构建与选择

Mars5

于 2025-10-26 10:56:00 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习与数据挖掘精要文章标签：文本挖掘特征构建 LDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mars5/article/details/154601223

机器学习与数据挖掘精要专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本挖掘中的特征构建与选择

1. 文本挖掘中的特征构建

1.1 非线性方法

在文本挖掘中，强大的特征表示可以通过统计方法获得。例如，概率潜在语义分析（PLSA）是一种无监督方法，它将文档语料库建模为好像由潜在主题的混合生成，每个主题表示为单词上的概率分布。该模型包括每个潜在主题和每个文档的主题概率 $P(´|d)$ 以及每个单词和主题的单词概率 $P(w|´)$。然而，PLSA 的一个缺点是它不能轻易扩展来建模训练期间未见过的文档的概率。潜在狄利克雷分配（LDA）解决了这个问题，它将每个文档中的主题混合建模为从狄利克雷分布中采样的随机变量。

在这两种情况下，主题混合 $ ´$ 可以解释为文档 $d$ 的新特征向量表示，同样，条件概率 $ ´$ 可以解释为术语 $w$ 的新特征向量表示。

另一个重要的非线性特征构建方法家族是深度学习方法，它基于训练一个包含至少一个隐藏层的多层神经网络模型。传统上，人们关注网络最终输出层的输出，该输出旨在解决网络最初训练的任何学习任务。然而，在深度学习中，人们丢弃输出层，而是使用隐藏层的输出作为输入文档（或单词、n - 元组等）的新特征向量表示。例如 word2vec 就是这样的一种表示。

1.2 其他方法

还有许多其他从文本中提取或构建特征的方法，这取决于特征的预期用途。例如，可以考虑语料库的双重表示，其中特征用于表示术语而不是文档。术语 $t$ 的特征向量为每个文档包含一个特征，其值与 $t$ 在该文档中的频率相关。这种表示可用于分析哪些单词经常共现，因此可能在意义上相关。特征构建还可以利用信息提取方法，例如识别各种类型的命名实体（人名、地名、组织名等）或其

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。