分词效果的评测算法(原创)

该博客介绍了一种自创的分词效果测评算法,适用于除HanLP中的索引分词之外的工具,如LTP和NIPIR。算法通过读取分词结果文件与标准答案文件进行对比,计算正确率,详细展示了核心代码实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、背景:菜鸟一枚,boss让对不同的分词工具进行测评,发现网上很多都是杨尚川同志的完美率计算法,boss不太满意,只能自己写了。

二、适用范围:HanLP中的索引分词不适用,其余均可,LTP、NIPIR均可。

废话不说,上算法:

/**计算正确率的核心算法*/
public class EvaluationTools {
    /**读取单个分词结果文件,与已知答案文件,分行进行处理
     * @param  resultFileName:分词结果文件的绝对路径~E:\\NLP\\CePing\\result-BaseAnalysis.txt
     * @return 测评结果对象 */
    public static ResultNum compute(String resultFileName) throws IOException{
        ResultNum resultNum=new ResultNum();
        resultNum.ModelNameString=resultFileName.substring(resultFileName.indexOf("-")+1, resultFileName.indexOf("."));
        String standardFileName="E:/NLP/中文分词评测语料/616500/中文分词评测测试+训练语料/中文分词评测测试语料(山西大学提供)/测试语料答案(ANSI格式).txt";
        InputStream resultIn = new FileInputStream(resultFileName);

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值