lunece 用的高亮类

最新推荐文章于 2025-12-29 19:42:17 发布

最新推荐文章于 2025-12-29 19:42:17 发布 · 131 阅读

文章标签：

#Java #log4j #Apache

技术私语专栏收录该内容

40 篇文章

订阅专栏

本文介绍了一种简单的高亮实现方法，使用JE分词结合正则表达式进行关键字高亮处理。该方法通过分词将关键字拆分，并逐一匹配文档中的相应部分进行高亮显示。

网上有很多高亮的类，但我觉得太负责了（也许他们觉得这样性能更高），我写了一个很简单采用je分词+正则解决高亮问题，实际使用下来还是不错的：

java 代码

import java.util.Iterator;
import java.util.List;
/**
* @author edwardpro
*
*/
public class HighlightProcess {
/**
*
*/
private String str;
private String key;
private static final String HIGH_LIGHT = ";
public HighlightProcess(String str, String key) {
// TODO Auto-generated constructor stub
this.str = str;
this.key = key;
}
/**
* @return the str
*/
public String getStr() {
return str;
}
/**
* @param str
* the str to set
*/
public void setStr(String str) {
this.str = str;
}
public String getResult() {
List list = WordsManager.splitStrToList(key);
for (Iterator it = list.iterator(); it.hasNext();) {
String target = (String) it.next();
this.str = RegxTools.regxReplace(this.str, target, HIGH_LIGHT);
}
return this.str;
}
}

分词这边使用了一个工厂方法，用来装载词库的，返回的是JE分词对象：

java 代码

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.StringTokenizer;
import jeasy.analysis.MMAnalyzer;
import org.apache.log4j.Logger;
public class WordsManager {
private static final Logger logger = Logger.getLogger(WordsManager.class);
private static MMAnalyzer mmanalyzer;
private static final String DEF_SPT = "<>";
static {
init();
}
private static void init() {
reload();
mmanalyzer = new MMAnalyzer();
}
public static void reload() {
if (AppInit.getScb().getExtDic() != null
&& !AppInit.getScb().getExtDic().equalsIgnoreCase("")) {
File dir = new File(AppInit.getScb().getExtDic());
File[] dics = dir.listFiles();
// add dict file
for (int i = 0; i < dics.length; i++) {
try {
MMAnalyzer.addDictionary(new FileReader(dics[i]));
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
logger.error("Read File Error", e);
}
}
}
}
/**
* @return the mmanalyzer
*/
public static MMAnalyzer getMmanalyzer() {
return mmanalyzer;
}
/**
* @param mmanalyzer
* the mmanalyzer to set
*/
public static void setMmanalyzer(MMAnalyzer mmanalyzer) {
WordsManager.mmanalyzer = mmanalyzer;
}
public static String[] splitStrToArray(String source) {
try {
String target = mmanalyzer.segment(source, DEF_SPT);
String[] ts = target.split(DEF_SPT);
return ts;
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return null;
}
public static List splitStrToList(String source) {
List ret = new ArrayList();
try {
String target = mmanalyzer.segment(source, DEF_SPT);
StringTokenizer st = new StringTokenizer(target, DEF_SPT);
for (; st.hasMoreTokens();) {
ret.add(st.nextToken());
}
} catch (IOException e) {
// TODO Auto-generated catch block
logger.error("segment error", e);
}
return ret;
}
public static void removeTag(String content) {
MMAnalyzer.removeWord(content);
}
}

正则方法：

java 代码

String reg="$1";

java 代码

public static String regxReplace(String str, String key, String rep) {
Pattern p = Pattern.compile("(" + key + ")", Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(str);
return m.replaceAll(rep);
}

原理很简单，利用分词分开，然后用这则一个个匹配掉目标中的关键字，由于实际中大部分都是替换标题和200字的描述所以并没有使用流方法，下次有时间改用流或者stringbuffer或者其他更接近分词的方法来做下看看，有什么问题，欢迎大家拍砖

public HighlightProcess(String str, String key) { // TODO Auto-generated constructor stub this.str = str; this.key = key; } /** * @return the str */ public String getStr() { return str; } /** * @param str * the str to set */ public void setStr(String str) { this.str = str; } public String getResult() { List list = WordsManager.splitStrToList(key); for (Iterator it = list.iterator(); it.hasNext();) { String target = (String) it.next(); this.str = RegxTools.regxReplace(this.str, target, HIGH_LIGHT); } return this.str; } }

分词这边使用了一个工厂方法，用来装载词库的，返回的是JE分词对象：

java 代码