Python 命名实体识别(NER) 库 使用指南

本文介绍了Python中用于命名实体识别的四个开源库:StanfordCoreNLP、Hanlp、FoolNLTK和LTP,包括安装方法、调用示例和性能评估。通过集成这些库,作者实现了75%准确率的NER工具,用于预标注文本,降低标注成本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前言

最近工作中需要使用命名实体识别来做一版人名及机构名的预识别demo,评估了独立训练一套NER模型所耗费的标注成本巨大,加上目前只是对该需求进行demo版本的开发,所以花了一段时间对目前现有的开源 NER 工具包进行了调研及优缺点评估。

这次主要使用的开源 NER 工具包有:

  • StanfordCoreNLP

 https://stanfordnlp.github.io/CoreNLP/

  • Hanlp

http://www.hanlp.com/

  • foolNLTK

https://github.com/rockyzhengwu/FoolNLTK

  • LTP

http://www.ltp-cloud.com/

现在将安装步骤,使用方法,及一些优缺点分析记录在此。


二、StanfordCoreNLP

StanfordCoreNLP 是斯坦福大学发布的 NLP 处理工具,StanfordCoreNLP 的源码使用 Java 编写,目前 Python 可以用两种方法进行调用,一种是使用 StanfordCoreNLP 库,是对 StanfordCoreNLP 进行了 Python 封装。而另一种方法是直接使用 Stanford 官方发布的 Python 版本 StanfordNLP。这里介绍第一种方式。

1.安装方法

(1) 首先  pip install stanfordcorenlp 

(2) 其次 由于其源码为 JAVA 编写,所以需要 JDK1.8 及以上版本的支持,下载安装 JDK1.8

(3) 下载 StanfordCoreNLP 的相关文件 ,主要是 相关语言的 JAR 模型,以及 CoreNLP 3.9.2

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值