lingpipe: 文本分词识别例子

本文介绍了lingpipe,一个自然语言处理工具,涵盖了命名实体识别、句题检测等多个NLP任务。提供了使用lingpipe-4.1.0.jar进行中文分词和NER的实例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1)什么是lingpipe?

详细见百度,简而言之是自然语言处理软件包(Natural Language Processing,NLP)。


lingpipe主要包含以下模块:
主题分类(Top Classification)
命名实体识别(Named Entity Recognition,NER)(什么是NER?继续百度。。。简而言之是人名、地名、机构名等文本识别)
词性标注(Part-of Speech Tagging)
句题检测(Sentence Detection)
查询拼写检查(Query Spell Checking)
兴趣短语检测(Interseting Phrase Detection)
聚类(Clustering)
字符语言建模(Character Language Modeling)
医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)
数据库文本挖掘(Database Text Mining)
中文分词(Chinese Word Segmentation)
情感分析(Sentiment Analysis)
语言辨别(Language Identification)


Reference

lingpipe官方文档:http://alias-i.com/lingpipe/demos/tutorial/cluster/read-me.html

背后NLP模型:http://nlp.stanford.edu/software/corenlp.shtml


2)我做了个分词的例子作为参考(应用到:命名实体识别、句题检测,用到 lingpipe-4.1.0.jar),e.g.

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import com.aliasi.chunk.CharLmHmmChunker;
import com
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值