利用传统方法（N-gram，HMM等）、神经网络方法（CNN，LSTM等）和预训练方法（Bert等）的中文分词任务实现

最新推荐文章于 2024-11-07 02:43:31 发布

JackHCC

最新推荐文章于 2024-11-07 02:43:31 发布

阅读量695

点赞数 1

CC 4.0 BY-SA版权

分类专栏： NLP：自然语言处理宝典文章标签：神经网络 cnn lstm

本文链接：https://blog.youkuaiyun.com/qq_43042024/article/details/125400855

NLP：自然语言处理宝典专栏收录该内容

4 篇文章

订阅专栏

本文探讨了中文分词的传统N-gram、HMM方法与现代神经网络技术（如CNN、LSTM）及预训练模型Bert的实践应用。通过PKU和MSR数据集实验，展示了BERT-CRF在准确率和F1分数上的显著优势，同时介绍了jieba、pkuseg和THULAC等工具的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自然语言处理中文分词

利用传统方法（N-gram，HMM等）、神经网络方法（CNN，LSTM等）和预训练方法（Bert等）的中文分词任务实现【The word segmentation task is realized by using traditional methods (n-gram, HMM, etc.), neural network methods (CNN, LSTM, etc.) and pre training methods (Bert, etc.)】

项目地址：https://github.com/JackHCC/Chinese-Tokenization

方法概述

传统算法：使用N-gram，HMM，最大熵，CRF等实现中文分词
神经⽹络⽅法：CNN、Bi-LSTM、Transformer等
预训练语⾔模型⽅法：Bert等

数据集概述

PKU 与 MSR 是 SIGHAN 于 2005 年组织的中⽂分词⽐赛所⽤的数据集，也是学术界测试分词⼯具的标准数据集。

实验过程

传统方法：
- Document
- Code
神经网络方法
- Document
- Code
预训练模型方法
- Document
- Code

实验结果

PKU数据集

模型	准确率	召回率	F1分数
Uni-Gram	0.8550	0.9342	0.8928
Uni-Gram+规则	0.9111	0.9496	0.9300
HMM	0.7936	0.8090	0.8012
CRF	0.9409	0.9396	0.9400
Bi-LSTM	0.9248	0.9236	0.9240
Bi-LSTM+CRF	0.9366	0.9354	0.9358
BERT	0.9712	0.9635	0.9673
BERT-CRF	0.9705	0.9619	0.9662
jieba	0.8559	0.7896	0.8214
pkuseg	0.9512	0.9224	0.9366
THULAC	0.9287	0.9295	0.9291

MSR数据集

模型	准确率	召回率	F1分数
Uni-Gram	0.9119	0.9633	0.9369
Uni-Gram+规则	0.9129	0.9634	0.9375
HMM	0.7786	0.8189	0.7983
CRF	0.9675	0.9676	0.9675
Bi-LSTM	0.9624	0.9625	0.9624
Bi-LSTM+CRF	0.9631	0.9632	0.9632
BERT	0.9841	0.9817	0.9829
BERT-CRF	0.9805	0.9787	0.9796
jieba	0.8204	0.8145	0.8174
pkuseg	0.8701	0.8894	0.8796
THULAC	0.8428	0.8880	0.8648