1)什么是lingpipe?
详细见百度,简而言之是自然语言处理软件包(Natural Language Processing,NLP)。
lingpipe主要包含以下模块:
主题分类(Top Classification)
命名实体识别(Named Entity Recognition,NER)(什么是NER?继续百度。。。简而言之是人名、地名、机构名等文本识别)
词性标注(Part-of Speech Tagging)
句题检测(Sentence Detection)
查询拼写检查(Query Spell Checking)
兴趣短语检测(Interseting Phrase Detection)
聚类(Clustering)
字符语言建模(Character Language Modeling)
医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)
数据库文本挖掘(Database Text Mining)
中文分词(Chinese Word Segmentation)
情感分析(Sentiment Analysis)
语言辨别(Language Identification)
Reference
lingpipe官方文档:http://alias-i.com/lingpipe/demos/tutorial/cluster/read-me.html
背后NLP模型:http://nlp.stanford.edu/software/corenlp.shtml
2)我做了个分词的例子作为参考(应用到:命名实体识别、句题检测,用到 lingpipe-4.1.0.jar),e.g.
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import com.aliasi.chunk.CharLmHmmChunker;
import com