1.前言
词法分析是自然语言处理的基本工具,主要包括分词、词性标注和实体识别等功能。目前各类词法分析工具大行其道,有免费开源的,也有商业收费的;有高校研发的,也有企业开发的;有支持Java的,也有支持Python的,甚至还有支持安卓平台的。不久前百度带来了LAC2.0版本,据说做了很多改进,我们通过实战来体验一下(百度打钱!!!)。
2.百度LAC2.0介绍
根据百度官方消息,LAC全称Lexical Analysis of Chinese,是百度NLP(自然语言处理部)研发的一款词法分析工具,可实现中文分词、词性标注、专名识别等功能。
百度方面宣称,LAC在分词、词性、专名识别的整体准确率超过90%,以专名识别为例,其效果要比同类词法分析工具提升10%以上。
目前,百度已经发布了LAC2.0版本,之前的1.0版本我也写过一篇博文加以探讨,彼时的1.0版本还是融合在paddlehub中的一个模型,详见利用百度超大规模预训练模型进行分词 一文。在2.0版本中LAC已经成为了独立模块,可以直接通过pip 安装。
pip install LAC
使用起来也非常方便
from LAC import LAC
lac = LAC()

本文深入评测百度LAC2.0词法分析工具,对比结巴分词、foolnltk和THULAC,在启动及处理速度、分词准确性,特别是地名与机构名识别上进行了详尽的比较,并通过词云图直观展示不同工具的效果。
最低0.47元/天 解锁文章
3671

被折叠的 条评论
为什么被折叠?



