添加中文分词器后,查询的时候获得摘要错误

本文解决了一个出现在Apache Nutch的BasicSummarizer类中的问题,该问题导致了StringIndexOutOfBoundsException异常。主要原因是汉字分词时,String.substring()方法的参数设置不当,使得开始位置大于结束位置。通过调整tOffset、tStartOffset和tEndOffset的值来修正此问题,确保参数正确。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主要是在plugin/summary-basic插件中的BasicSummarizer类出现了错误:

java.lang.StringIndexOutOfBoundsException: String index out of range: -1
	at java.lang.String.substring(String.java:1937)
	at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:188)
	at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:264)
	at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:63)
	at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:53)
	at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)
	at java.util.concurrent.FutureTask.run(FutureTask.java:138)
	at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
	at java.lang.Thread.run(Thread.java:662)


 

主要原因是:getSummary()方法截取摘要时,因为汉字分词的原因使得String.substring()方法参数出现问题,使得开始位置大于结束位置,所以出现数组越界。

解决方案:截取摘要前预先对tOffset和tStartOffset,tEendOffset进行处理,确保String.substring()参数正确。

            try{
            	/**
            	 * 修改加上额外的判断条件,如果截取字符串的时候,开始大于结束则需要进行
            	 * 处理,因为添加中文分词器后,截取的词有重叠。
            	 */
            	int tOffset,tStartOffset,tEndOffset;
            	tOffset=offset;
            	tStartOffset=t.startOffset();
            	tEndOffset=t.endOffset();
            	if(tOffset>tStartOffset){
            		tStartOffset=tOffset;
            	}
            	if(tStartOffset>tEndOffset){
            		tEndOffset=tStartOffset;
            	}
            	
                excerpt.add(new Fragment(text.substring(tOffset, tStartOffset)));
                excerpt.add(new Highlight(text.substring(tStartOffset,tEndOffset)));
            }catch(Exception e){
            	System.out.println("BasicSummarizer Exception happened: String.substring() offset>t.startOffset");
//            	System.out.println("offset="+offset+" || t.startOffset="+t.startOffset()+" ||t.endOffset="+t.endOffset());
            }


linux下部署:将到plugin/summary-basic目录下,对修改后的BasicSummarizer进行使用ant jar进行重新编译,将编译后的BasicSummery.jar复制替换掉tomcat下nutch工程中的WEB-INF/classes/plugin/summary-basic文件夹下同名的文件。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WitsMakeMen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值