Maui
https://www.airpair.com/nlp/keyword-extraction-tutorial
从文本中提取关键字
1. 训练模型
java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar train -l data/docs/fao_train/ -m data/models/keyword_extraction_model -v none -o 2
-l 指定训练文件的路径
-m 训练模型输出的路径
-v none 意味着没有vocabulary
-o 抛弃occurred少于2次的
应用输出的训练模型
java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar run data/docs/fao_test/w2167e.txt -m data/models/keyword_extraction_model -v none -n 10-m 指定训练出来的模型
-v none 意味着没有vocabulary
-n 输出top n 的keyword评估提取出来的keyword的质量
java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar test -l data/docs/fao_test/ -m data/models/keyword_extraction_model -v none -n 8-l 测试文件路径
-m 指定训练出来的模型
-v none 意味着没有vocabulary
-n probability threshold (预选词中的模板)
可控词汇下提取关键字(如果从一个文件集中提取关键字. 那么因为每个文本讨论主题不同. 那么提取出的关键词是一定不相关的.) 这种情况下 , 如果有一个词典,或者分类或者字库就更好.
Maui 可以基于RDF SKOS 格式的字库来工作 . 用 -v 指定字库vocabulary , -f 指定格式如”skos”
训练模型
java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar train -l data/docs/fao_train/ -m data/models/term_assignment_model -v data/vocabulary/agrovoc_en.rdf.gz -f skos应用输出的训练模型
java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar run data/docs/fao_test/w2167e.txt -m data/models/term_assignment_model -v data/vocabulary/agrovoc_en.rdf.gz -f skos评估提取出来的keyword的质量
java -Xmx1024m -jar maui-standalone-1.1-SNAPSHOT.jar test -l data/docs/fao_test/ -m data/models/term_assignment_model -v data/vocabulary/agrovoc_en.rdf.gz -f skos