SAE提供了新浪的中文分词服务,因其还属于测试阶段,故性能不佳。
本文采用JAVA实现DEMO,仍需要导入sae-local-1.1.0.jar,官网有提供下载。
相关的类为 com.sina.sae.segment.SaeSegment
实现的示例如下
String respContent = "";
String userContent = requestMap.get("Content"); //需要分解的句子
SaeSegment seg = new SaeSegment();
java.util.List<SaeSegmentItem> ret = seg.segment(userContent,true);//分解之后返回的是一个List,true表示启用词性分析
for (SaeSegmentItem item : ret)
respContent += item.getWord();//把分解的每个词语再连接起来
// 失败时输出错误码和错误信息
if (seg.getErrno() != 0) {
System.out.println(seg.getErrno());
System.out.println(seg.getErrmsg());
默认使用空格进行分割,默认编码是UTF-8。
关于SAE中文分词的更多详细资料,请查看官网的文档 http://sae4java.sinaapp.com/doc/com/sina/sae/segment/SaeSegment.html