ngram-class主要是用来对训练语料的词进行聚类,聚类的依据是基于类的语言模型的困惑度最低。目前仅支持基于类的2gram模型。当然ngarm-class同样会生成ngram-count需要的计数文件和ngram需要的类扩展文件,来训练和使用基于类的N-gram语言模型。
-help
输出帮助信息
-version
输出版本信息
-debug level
输出调试信息,level为0表示不输出调试信息,为了更好跟踪聚类情况,可将level设为2。
输入选项
-vocab vocab_file
读取词典文件vocab_file。如果计数文件中或者训练文件中,如果出现了词典vocab_file之外的词(OOV),则这些词会被替换为<unk>。
-tolower
把词典中的词都变成小写(对英文)
-counts counts_file
读取计数文件counts_file。其中计数文件包含了1阶和2阶计数。
-text text_file
读取训练文件text_file来生成计数文件或语言模型。
聚类
-numclasses C
设置需要聚类的数目C。