在看topic model和LDA的相关知识。 想要找个主题建模的工具使用一下。java环境下找到了mallet,版本是2.0.7。 跳过了官方文档想在网上找一些教程和使用心得,发现几乎都是一个版本的讲解,都是配置和命令行的操作使用 ,没有提到在具体的java项目中如何去使用mallet工具。 于是自己摸索着看了一下,记录下自己初次使用的一些心得。
在官网下载好mallet的项目文件之后,解压。得到的mallet项目不能直接import,在Eclipse中新建一个项目,把mallet目录下的内容全部复制过去即可。由于想使用主题建模相关的功能。打开example包下的TopicModel.java既是一个使用的样例。
该类主要包括两部分。 前一部分训练出model,后一部分用该model找到test文本的主题。
instance作为数据的对象,我把args[]读入改为了从指定地址的文件读入。 这里的训练数据可以是一个文件,亦可以令fileReader读入多个文件。 同时生成instance时的pipeList对象实现了停用词过滤,大小写归一等操作,队训练数据进行了预处理。 numTopics指定了topic的个数,model读入训练数据并调用API完成训练。
测试部分大同小异,也是要指定好测试的instance得到在model的各个topic上的值即可。
Mallet主题建模实践
本文介绍了如何在Java环境中使用Mallet工具进行主题建模,包括项目的导入方式、实例化数据的方法、停用词过滤及大小写归一化的预处理步骤,并通过一个具体的例子展示了如何训练模型以及利用该模型对测试文本进行主题分析。
1万+

被折叠的 条评论
为什么被折叠?



