文本挖掘:降维与文档分类技术解析
1. 降维方法概述
降维是文本挖掘和数据挖掘的核心方法之一,可分为线性投影方法和非线性投影方法。
线性投影方法的基本原理可追溯到Karl Pearson的主成分分析(PCA)。PCA依赖于奇异值分解(SVD),后续还发展出了因子分析(Factor Analysis)、独立成分分析(Independent Component Analysis)和随机投影(Random Projections)等相关技术。线性投影方法在文本处理中的应用包括潜在语义索引(LSI)和潜在语义分析(LSA)。
非线性投影方法中,多维尺度分析(MDS)可用于生成文档地图和研究词语间的语义关系,t - 分布随机邻域嵌入(TSNE)则用于将高维数据集投影到低维空间进行可视化。此外,自组织特征映射(Self - Organized Feature Maps)和自动编码器神经网络(Auto Encoder Neural Networks)等非线性投影方法可提供映射函数,用于投影新的数据样本。
构建词嵌入的方法有skip - gram、连续词袋模型(continuous bag - of - words)、GloVe、fastText以及上下文词嵌入(如BERT和ELMo)等。同时,也有一些关于句子、段落和文档嵌入的有趣方法。在词汇处理方面,有词汇修剪和词汇合并技术,以及词形还原和词干提取算法。
2. 降维相关练习
以下是一些与降维相关的练习:
1. 词干提取实验 :
- 对不同的n值重复词干提取过程,n从1到10变化,并生成词汇量大小与n的关系图。
-
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



