SRILM使用之ngram-class

SRILM的ngram-class工具主要用于词的聚类,基于类的语言模型困惑度最低。支持2gram模型,提供多种输入和输出选项,如-vocab、-text、-numclasses等。可以通过-full或-incremental选择不同的聚类算法,并通过-class-counts和-classes输出聚类结果。交互式选项允许人工调整聚类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ngram-class主要是用来对训练语料的词进行聚类,聚类的依据是基于类的语言模型的困惑度最低。目前仅支持基于类的2gram模型。当然ngarm-class同样会生成ngram-count需要的计数文件和ngram需要的类扩展文件,来训练和使用基于类的N-gram语言模型。

-help

输出帮助信息

-version

输出版本信息

-debug    level

输出调试信息,level为0表示不输出调试信息,为了更好跟踪聚类情况,可将level设为2。

输入选项

-vocab    vocab_file

读取词典文件vocab_file。如果计数文件中或者训练文件中,如果出现了词典vocab_file之外的词(OOV),则这些词会被替换为<unk>。

-tolower

把词典中的词都变成小写(对英文)

-counts    counts_file

读取计数文件counts_file。其中计数文件包含了1阶和2阶计数。

-text    text_file

读取训练文件text_file来生成计数文件或语言模型。

聚类

-numclasses    C

设置需要聚类的数目C。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值