文本挖掘中的向量模型构建与降维技术
1. 向量模型构建项目
在文本挖掘中,构建向量空间模型是一项重要的任务。下面介绍两个相关的项目。
1.1 构建向量空间模型函数
首先,我们要创建一个名为 getvectormodel 的函数,用于为给定的文档集合构建向量空间模型表示。该函数的具体规范如下:
[mtx,params] = getvectormodel(dataset,vocab,type,idfvt)
- 输入变量 :
-
dataset:包含要构建向量模型的数据集合,它必须是一个类似于verses的结构数组,每个文档至少包含三个字段:vocab(包含文档词汇术语的字符串数组)、count(包含文档中术语频率的数值数组)和text(包含文档原始文本的字符串)。 -
vocab:包含用于构建模型的整体集合词汇的规范,可以是单词的字符串数组或空字符串。如果是字符串数组,则包含用于构建模型的特定词汇;如果是空字符串,则应直接从dataset中提取词汇。 -
type:包含要应用的加权方案的规范,应提供使用二进制值条目、TF、NTF(归一化 TF)、ID
-
超级会员免费看
订阅专栏 解锁全文
886

被折叠的 条评论
为什么被折叠?



