THULAC：一个高效的中文词法分析工具包清华孙茂松老师分享

最新推荐文章于 2024-11-14 13:07:51 发布

转载最新推荐文章于 2024-11-14 13:07:51 发布 · 835 阅读

5 ·

CC 4.0 BY-SA版权

原文链接：http://thulac.thunlp.org/

知识图谱专栏收录该内容

62 篇文章

订阅专栏

THULAC是一款由清华大学研发的中文词法分析工具包，具备强大的分词及词性标注功能。该工具使用大规模人工标注语料库训练而成，具有97.3%的分词准确率及92.9%的词性标注准确率，在处理速度方面也表现出色。

n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名
m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词
v/动词 vm/能愿动词 vd/趋向动词 a/形容词 d/副词
h/前接成分 k/后接成分 i/习语 j/简称
r/代词 c/连词 p/介词 u/助词 y/语气助词
e/叹词 o/拟声词 g/语素 w/标点 x/其它

软件简介

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。THULAC具有如下几个特点：

能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库（约含5800万字）训练而成，模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％，与该数据集上最好方法效果相当。
速度较快。同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

目前THULAC工具包下载次数为：10628