作为java的一个库来使用wvtool

 

WVTool可作为一个独立的Java库或RapidMiner环境的一个插件来使用。在这里,我们将主要讨论WVTool作为一个java库来使用是如何实现的。

1.1 安装

作为Java库使用WVTool,首先从SourceForgeWVTool/ homepage1上下载wvtool ,解压缩档案,并把wvtool.jar文件和所有的jar文件放置到lib子目录中。

要使WVTool能应用起来,需要处理两种基本步骤:

1.         从给定的一组文本文件来创建一个词表(定义向量空间的维度);

2.         基于创建的词表创建向量空间。词表中包含的所有词条连同一些统计数字(例如,在有多少文件,词条)都被用来矢量化 。矢量化的词表中的词条用来决定向量空间的维度和权值。

以上两个步骤需要两个基本输入参数。首先,输入样本文件清单,告诉系统处理哪些文本文件;第二,配置对象,它告诉系统各个步骤所使用的处理方法。

1.2 定义Input

Input列表告诉WVTool哪些学习文本文件应该处理。列表中每项包含以下信息:

 

l         URI的文本资源。目前,这可以是本地文件/目录或网址

如果是本地目录文件,在此目录中的所有文件都被处理(包含子目录) 。作为WVTool的扩展,其他类型的URI也可以处理的很好,只要用户提供了一个方法来处理它们(见2.3

l         文本的语言类型(可选)

l         文件类型(可选)

文件类型分为文本文件(txt)、pdf

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值