自己动手实现 lucene 搜索代码高亮显示

Lucene高亮显示实现

最新推荐文章于 2020-10-10 10:33:48 发布

weixin_30838873

最新推荐文章于 2020-10-10 10:33:48 发布

阅读量100

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/suyuan/archive/2008/07/30/1256775.html

本文介绍了一种在Lucene搜索结果中实现自定义高亮显示的方法，通过去除HTML标签、匹配关键词并高亮显示，同时对高亮后的文本进行分割重组以优化展示效果。

lucene 搜索时候,为增加用户体验一般都会加代码高亮显示, lucene提供了代码高亮显示的插件--highlighter 这个插件相信很多人都用过,所以此处我们不做讨论,我们这里自己写代码实现类似的效果,经过努力俺实现了.

这里我先说说我的思路最后上代码:

1.首先将搜索结果过滤掉所有的html标签,搜索结果里如果包含标签对于截取字符长度等非常麻烦,甚至会造成你的页面结构混乱,所以索性全部过滤掉.

2.在符合搜索关键字的地方套红比如搜索:"博客园,程序员的家园",搜索博客园套红后的结果就是 "博客园,程序员的家园"

3.对套红后的字符串进行分割得到String[] ,这里要说明下分割的方式比如 abcd 假如我们用 b作为分割点则分割后的结果是 string[0] = a ;string[1]= cd

而我这里所说的分割要得到的结果是:string[0] = a ;string[1]= bcd 也就是分割点包含在数组中,这里是关键.

4.将分割的各个段合并得到结果.

以上就是我的思路怎么? 是不是看到迷迷糊糊啊,呵呵我的文笔有限啊可能说的不清楚,我们来套着代码说:

protected String startTag = " " ;
protected String endTag = " " ;

这里就是定义套红的方式我这里不啰嗦了

protected int maxNumFragmentsRequired = 40 ;
protected int maxNumFragmentsRequired = 5 ;

这里定义分割后每段最大长度和最多显示几段,应该能够理解吧

protected String PatternText = " (?=(?: " + startTag + " [\\s\\S]+? " + endTag + " )+) " ;;

这里可是关键哦呵呵这个正则的作用就是来分割字符串用的.

public String gettextfragmenter(String input)
{

//最多保留几段

int _maxNumFragmentsRequired = maxNumFragmentsRequired;

String result = "";

Pattern pattern = Pattern.compile(PatternText,Pattern.MULTILINE);

//使用上面定义的正则将文本分割,关键部分

String[] textfragmenter = pattern.split(input);

//如果定义的段数大于分割后的实际段数

if (textfragmenter.length < _maxNumFragmentsRequired)
 {
 _maxNumFragmentsRequired = textfragmenter.length;

}

//下面一个循环将结果重组成我们需要的结果

for ( int i = 0 ;i < _maxNumFragmentsRequired;i ++ )
 {
 String str = textfragmenter[i].length() > textFragmenterlegth ? textfragmenter[i].substring( 0 , textFragmenterlegth) + "

" : textfragmenter[i];
            result += str;
        }
         return result;
    }

//doc :document fields:搜索的fieldsname的集合 words:搜索的关键词集合

public Document highlighter(Document doc,String[] fields,String[] words)
 {
 if (words != null )
 {
 String deleteTag = endTag + startTag;
 String[] hlwords = new String[words.length];
 for ( int i = 0 ;i < words.length;i ++ )
 {
 hlwords[i] = startTag + words[i] + endTag;
 }

 for (String field : fields)
 {
 int j = 0 ;

Field fField = doc.getField(field);

//这里就是我说的替换掉所有的html标签

String value = fField.stringValue().replaceAll( " <[^>]+>|&[^;]+; " , "" );
 for ( int i = 0 ;i < words.length;i ++ )
 {
 if (value != null && value.length() > words[i].length()) {
 value = value.replaceAll(words[i],hlwords[i]);
 j ++ ;
 }
 }
 if (j > 0 ) {

if(j > 1) value = value.replaceAll(deleteTag, "");

//调用我说的分割重组方法

                    value = gettextfragmenter(value);
                    fField.setValue(value);
                }
            }
        }
         return doc;
    }

public String gettextfragmenter(String input)
 {
 int _maxNumFragmentsRequired = maxNumFragmentsRequired;
 String result = "";
 Pattern pattern = Pattern.compile(PatternText,Pattern.MULTILINE);
 String[] textfragmenter = pattern.split(input);
 if(textfragmenter.length<_maxNumFragmentsRequired)
 {
 _maxNumFragmentsRequired = textfragmenter.length;
 }
 for(int i=0;i<_maxNumFragmentsRequired;i++)
 {
 String str = textfragmenter[i].length()>textFragmenterlegth ? textfragmenter[i].substring(0, textFragmenterlegth)+"": textfragmenter[i];
 result +=str;
 }
 return result;
 }

 public Document highlighter(Document doc,String[] fields,String[] words)
 {
 if(words!=null)
 {
 String deleteTag = endTag + startTag;
 String[] hlwords = new String[words.length];
 for(int i=0;i<words.length;i++)
 {
 hlwords[i] = startTag + words[i] + endTag;
 }

 for(String field : fields)
 {
 int j=0;
 Field fField = doc.getField(field);
 String value = fField.stringValue().replaceAll("<[^>]+>|&[^;]+;","");
 for(int i=0;i<words.length;i++)
 {
 if(value != null && value.length() > words[i].length()) {
 value = value.replaceAll(words[i],hlwords[i]);
 j++;
 }
 }
 if(j > 0) {
 if(j > 1) value = value.replaceAll(deleteTag, "");
 value = gettextfragmenter(value);
 fField.setValue(value);
 }
 }
 }
 return doc;
 }