Maui

Maui

https://www.airpair.com/nlp/keyword-extraction-tutorial

从文本中提取关键字
1. 训练模型
java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar train -l data/docs/fao_train/ -m data/models/keyword_extraction_model -v none -o 2

-l 指定训练文件的路径
-m 训练模型输出的路径
-v none 意味着没有vocabulary
-o 抛弃occurred少于2次的
  1. 应用输出的训练模型
    java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar run data/docs/fao_test/w2167e.txt -m data/models/keyword_extraction_model -v none -n 10

    -m 指定训练出来的模型
    -v none 意味着没有vocabulary
    -n 输出top n 的keyword

  2. 评估提取出来的keyword的质量
    java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar test -l data/docs/fao_test/ -m data/models/keyword_extraction_model -v none -n 8

    -l 测试文件路径
    -m 指定训练出来的模型
    -v none 意味着没有vocabulary
    -n probability threshold (预选词中的模板)

可控词汇下提取关键字(如果从一个文件集中提取关键字. 那么因为每个文本讨论主题不同. 那么提取出的关键词是一定不相关的.) 这种情况下 , 如果有一个词典,或者分类或者字库就更好.
Maui 可以基于RDF SKOS 格式的字库来工作 . 用 -v 指定字库vocabulary , -f 指定格式如”skos”

  1. 训练模型
    java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar train -l data/docs/fao_train/ -m data/models/term_assignment_model -v data/vocabulary/agrovoc_en.rdf.gz -f skos

  2. 应用输出的训练模型
    java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar run data/docs/fao_test/w2167e.txt -m data/models/term_assignment_model -v data/vocabulary/agrovoc_en.rdf.gz -f skos

  3. 评估提取出来的keyword的质量
    java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar test -l data/docs/fao_test/ -m data/models/term_assignment_model -v data/vocabulary/agrovoc_en.rdf.gz -f skos

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值