20、文本挖掘中的向量模型构建与降维技术

文本挖掘中的向量模型构建与降维技术

1. 向量模型构建项目

在文本挖掘中,构建向量空间模型是一项重要的任务。下面介绍两个相关的项目。

1.1 构建向量空间模型函数

首先,我们要创建一个名为 getvectormodel 的函数,用于为给定的文档集合构建向量空间模型表示。该函数的具体规范如下:

[mtx,params] = getvectormodel(dataset,vocab,type,idfvt)
  • 输入变量
    • dataset :包含要构建向量模型的数据集合,它必须是一个类似于 verses 的结构数组,每个文档至少包含三个字段: vocab (包含文档词汇术语的字符串数组)、 count (包含文档中术语频率的数值数组)和 text (包含文档原始文本的字符串)。
    • vocab :包含用于构建模型的整体集合词汇的规范,可以是单词的字符串数组或空字符串。如果是字符串数组,则包含用于构建模型的特定词汇;如果是空字符串,则应直接从 dataset 中提取词汇。
    • type :包含要应用的加权方案的规范,应提供使用二进制值条目、TF、NTF(归一化 TF)、ID
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值